Vous n'êtes pas identifié(e).

#1 18-03-2012 20:51:39

Denez
Membre
Lieu : Plogoff / Plougoñ
Inscription : 14-09-2008
Messages : 113

Indexer des textes numérisés / menegeriñ testennoù niverelaet

Bonsoir,

Je cherche un conseil pour "béaucien" de l'informatique.
Je travaille en ce moment sur des histoires de Bretagnes écrites au 15ème et 16ème siècles, en vieux français. Sur Gallica j'ai trouvé des sources intéressantes, mais les documents pdf ne permettent pas de recherches directes par mots ou ensemble de caractères. Existe t il des logiciels qui permettent des reconnaissances de mots ou de suites de caractères sur des documents importants (800 pages). Le but étant une fois cette transcription faite d'effectuer des recherches dans le document, plus facilement.

Merci par avance.

Noz vat deoc'h,

Klask a ran un ali evit ur genaoueg eus ar stlennegezh.
Labourat a ran er mare-mañ war istorioù Breizh bet skrivet er 15vet ha 16vet kantved, e hen-galleg. Kavet am eus mammennoù dedennus war Gallica met n'eus ket tu da furchal an testennoù dre c'herioù pe strolladoù lizherennoù war an teuliadoù pdf. Bez e vefe meziantoù hag a c'hellfe anavezout gerioù pe strolladoù lizherennoù e-barzh teuliadoù bras a-walc'h (800 follenn). Ar pal zo furchal an teuliadoù en un doare aesoc'h pa vo treuzfurmet an teuliad.

Trugarez deoc'h en a-raok.

A galon

Denez


Da bep labous e gan, da bep pobl he yezh.

Hors ligne

#2 20-03-2012 20:15:17

gabigo29
Membre
Lieu : PLOUDALMEZEAU
Inscription : 19-02-2006
Messages : 147

Re : Indexer des textes numérisés / menegeriñ testennoù niverelaet

Bonsoir DENEZ
le mode recherche ne marche pas sur du pdf
une solution transformer le PDF en WORD par OCR
un imprimante en général sait le faire
ou bien passer par  le site suivant 
http://www.free-ocr.com/

Sur GALLICA certains documents peuvent vu à l'écran en PDFmais il y a en plus un onglet " mode texte"
alors le CTRL F fonctionne mais sur du XV et XVI le résultat est imprévisible
la façon d'écrire est trop différente
j'ai le même problème - il faut se payer toute les pages à la main
j'ai récupéré à la BNF une cinquantaine de cartes géographiques remise en forme et zoomée sur le Cap Sizun
et mises sous forme de 2 diaporamas Powerpoint
si cela vous intéresse  je peux vous en donner copie
amicalement
GG

Hors ligne

#3 21-03-2012 07:10:53

Denez
Membre
Lieu : Plogoff / Plougoñ
Inscription : 14-09-2008
Messages : 113

Re : Indexer des textes numérisés / menegeriñ testennoù niverelaet

Bonjour Gabigo29 et merci pour ces conseils.

J'ai essayé ocr, mais pour des raisons que j'ignore encore, (soit le volume de pages soit le vieux français), je ne suis pas parvenu à transcrire le volumineux pdf. Je n'ai pas fais attention sur Gallica si le mode texte existait, mais je vais vérifier cela dès ce soir.
Pour ce qui concerne les cartes cela m'intéresse beaucoup.

Encore merci

Denis

Demat deoc'h Gabigo29 ha trugarez evit hoc'h alioù.

Klasket am eus implijout ocr, met evit abegoù dianav deuzoudon (re vras an teuliad pe an hen-c'halleg) n'on ket deut a-benn da dreuzfurmiñ an teuliad bras .pdf. N'em eus ket merzet ma oa tu da gaout ar mod "testenn" war Gallica met ober a rin un taol sell fenoz.
E-keñver ar c'hartennoù, dedennet kenañ on.

Trugarez deoc'h c'hoazh.

A galon

Denez


Da bep labous e gan, da bep pobl he yezh.

Hors ligne

#4 21-03-2012 11:34:59

nono
Membre
Lieu : Cléden Cap Sizun
Inscription : 16-02-2006
Messages : 392
Site Web

Re : Indexer des textes numérisés / menegeriñ testennoù niverelaet

Bonjour Denez
je n'ai pas répondu à ta question car je ne suis pas spécialiste en la matière
j' utilise comme tout le monde un logiciel PDF , mais en lecture seulement , pas en conception ( hormis à partir du  scanner )
Je crois savoir que les logiciels qui permettent de concevoir des documents PDF sont payants ( et comme je suis d'origine bigoudène !!!! )
comme Gaby , j'ai téléchargé de très nombreux documents  anciens traitant de la bretagne sur le site Gallica

Mais il ne faut pas oublier qu'il existe d' autres bibliothèques qui possèdent de nombreux documents anciens sur la Bretagne souvent téléchargeables )

voir le site de Google Books sur http://books.google.fr/books

et aussi le site   http://www.archive.org/  qui recèle des documents que l'on ne retrouve pas toujours sur Gallica

voir par exemple Camille Vallaux   sur  http://www.archive.org/search.php?query=vallaux

sur le dernier site on peut acceder à de très nombreuses bibliothèques , on peut télécharger ces documents   , mais aussi  lire les documents en ligne  avec une recherche de mots possible 
aller sur le livre de camille vallaux http://www.archive.org/details/labasseb … 00vallgoog
et en recherche faire par exemple "cap sizun " et allez par curiosité à la page 138

kénavo

noel

Dernière modification par nono (21-03-2012 14:52:04)

Hors ligne

#5 21-03-2012 20:58:29

gabigo29
Membre
Lieu : PLOUDALMEZEAU
Inscription : 19-02-2006
Messages : 147

Re : Indexer des textes numérisés / menegeriñ testennoù niverelaet

Pour concevoir en pdf - fastoche
si on ne dispose pas de Word - télécharger OpenOffice de SUN en + c'est gratuit !!!!
l'équivalent WORD s'appelle openoffice writer
il dispose d'un onglet exporter en PDF - donc rien à faire
attention des fichiers texte + images peuvent devenir de taille énorme 15 à 20 MO !!!!
alors baisser la résolution des images
bonne soirée
GG

Hors ligne

#6 15-04-2012 07:13:00

gabigo29
Membre
Lieu : PLOUDALMEZEAU
Inscription : 19-02-2006
Messages : 147

Re : Indexer des textes numérisés / menegeriñ testennoù niverelaet

Bonjour à tous
la dernière mise à jouir d'Acrobat Reader propose :
dans un document PDF, un onglet petmettant de traduire directement du PDF en WORD
cela suppose d'avoir Word installé sur votre micro
une facilité de plus !!!!!
amicalement
GG

Hors ligne

#7 06-06-2012 08:10:11

Cleden
Modérateurs
Inscription : 17-01-2006
Messages : 844

Re : Indexer des textes numérisés / menegeriñ testennoù niverelaet

Denez a écrit :

Bonsoir,

Je cherche un conseil pour "béaucien" de l'informatique.
Je travaille en ce moment sur des histoires de Bretagnes écrites au 15ème et 16ème siècles, en vieux français. Sur Gallica j'ai trouvé des sources intéressantes, mais les documents pdf ne permettent pas de recherches directes par mots ou ensemble de caractères. Existe t il des logiciels qui permettent des reconnaissances de mots ou de suites de caractères sur des documents importants (800 pages). Le but étant une fois cette transcription faite d'effectuer des recherches dans le document, plus facilement.

Merci par avance.

Noz vat deoc'h,

Klask a ran un ali evit ur genaoueg eus ar stlennegezh.
Labourat a ran er mare-mañ war istorioù Breizh bet skrivet er 15vet ha 16vet kantved, e hen-galleg. Kavet am eus mammennoù dedennus war Gallica met n'eus ket tu da furchal an testennoù dre c'herioù pe strolladoù lizherennoù war an teuliadoù pdf. Bez e vefe meziantoù hag a c'hellfe anavezout gerioù pe strolladoù lizherennoù e-barzh teuliadoù bras a-walc'h (800 follenn). Ar pal zo furchal an teuliadoù en un doare aesoc'h pa vo treuzfurmet an teuliad.

Trugarez deoc'h en a-raok.

A galon

Denez

C'est le problème des textes scannés, même si leur format est *pdf, ils sont considérés comme des images et il n'est pas possible d'y faire des recherches directement sans passer par une application tierce d'OCR (Reconnaissance Optique des Caractère). Ces applications fonctionnent bien à condition que le texte scanné soit d'une qualité suffisante.

Si le document n'est pas trop lourd, tu pourra faire la conversion en ligne, il existe de nombreux OCR en ligne et tu en trouvera une liste non exhaustive à l'adresse suivante: http://roget.biz/4-ocr-gratuits-en-lign … s-logiciel

Si le poids du document est plus important, il faudra probablement installer un logiciel sur ton poste, tu en trouvera quelques uns à l'adresse suivante: http://www.01net.com/telecharger/window … index.html

Loïc


*http://www.cap-sizun.com
*http://www.cleden-cap-sizun.com

Hors ligne

Pied de page des forums