Indexer des textes numérisés / menegeriñ testennoù niverelaet

Denez · 2012-03-18 20:51:39

Bonsoir,

Je cherche un conseil pour "béaucien" de l'informatique.
Je travaille en ce moment sur des histoires de Bretagnes écrites au 15ème et 16ème siècles, en vieux français. Sur Gallica j'ai trouvé des sources intéressantes, mais les documents pdf ne permettent pas de recherches directes par mots ou ensemble de caractères. Existe t il des logiciels qui permettent des reconnaissances de mots ou de suites de caractères sur des documents importants (800 pages). Le but étant une fois cette transcription faite d'effectuer des recherches dans le document, plus facilement.

Merci par avance.

Noz vat deoc'h,

Klask a ran un ali evit ur genaoueg eus ar stlennegezh.
Labourat a ran er mare-mañ war istorioù Breizh bet skrivet er 15vet ha 16vet kantved, e hen-galleg. Kavet am eus mammennoù dedennus war Gallica met n'eus ket tu da furchal an testennoù dre c'herioù pe strolladoù lizherennoù war an teuliadoù pdf. Bez e vefe meziantoù hag a c'hellfe anavezout gerioù pe strolladoù lizherennoù e-barzh teuliadoù bras a-walc'h (800 follenn). Ar pal zo furchal an teuliadoù en un doare aesoc'h pa vo treuzfurmet an teuliad.

Trugarez deoc'h en a-raok.

A galon

Denez

gabigo29 · 2012-03-20 20:15:17

Bonsoir DENEZ
le mode recherche ne marche pas sur du pdf
une solution transformer le PDF en WORD par OCR
un imprimante en général sait le faire
ou bien passer par le site suivant
http://www.free-ocr.com/

Sur GALLICA certains documents peuvent vu à l'écran en PDFmais il y a en plus un onglet " mode texte"
alors le CTRL F fonctionne mais sur du XV et XVI le résultat est imprévisible
la façon d'écrire est trop différente
j'ai le même problème - il faut se payer toute les pages à la main
j'ai récupéré à la BNF une cinquantaine de cartes géographiques remise en forme et zoomée sur le Cap Sizun
et mises sous forme de 2 diaporamas Powerpoint
si cela vous intéresse je peux vous en donner copie
amicalement
GG

Denez · 2012-03-21 07:10:53

Bonjour Gabigo29 et merci pour ces conseils.

J'ai essayé ocr, mais pour des raisons que j'ignore encore, (soit le volume de pages soit le vieux français), je ne suis pas parvenu à transcrire le volumineux pdf. Je n'ai pas fais attention sur Gallica si le mode texte existait, mais je vais vérifier cela dès ce soir.
Pour ce qui concerne les cartes cela m'intéresse beaucoup.

Encore merci

Denis

Demat deoc'h Gabigo29 ha trugarez evit hoc'h alioù.

Klasket am eus implijout ocr, met evit abegoù dianav deuzoudon (re vras an teuliad pe an hen-c'halleg) n'on ket deut a-benn da dreuzfurmiñ an teuliad bras .pdf. N'em eus ket merzet ma oa tu da gaout ar mod "testenn" war Gallica met ober a rin un taol sell fenoz.
E-keñver ar c'hartennoù, dedennet kenañ on.

Trugarez deoc'h c'hoazh.

A galon

Denez

nono · 2012-03-21 11:34:59

Bonjour Denez
je n'ai pas répondu à ta question car je ne suis pas spécialiste en la matière
j' utilise comme tout le monde un logiciel PDF , mais en lecture seulement , pas en conception ( hormis à partir du scanner )
Je crois savoir que les logiciels qui permettent de concevoir des documents PDF sont payants ( et comme je suis d'origine bigoudène !!!! )
comme Gaby , j'ai téléchargé de très nombreux documents anciens traitant de la bretagne sur le site Gallica

Mais il ne faut pas oublier qu'il existe d' autres bibliothèques qui possèdent de nombreux documents anciens sur la Bretagne souvent téléchargeables )

voir le site de Google Books sur http://books.google.fr/books

et aussi le site http://www.archive.org/ qui recèle des documents que l'on ne retrouve pas toujours sur Gallica

voir par exemple Camille Vallaux sur http://www.archive.org/search.php?query=vallaux

sur le dernier site on peut acceder à de très nombreuses bibliothèques , on peut télécharger ces documents , mais aussi lire les documents en ligne avec une recherche de mots possible
aller sur le livre de camille vallaux http://www.archive.org/details/labasseb … 00vallgoog
et en recherche faire par exemple "cap sizun " et allez par curiosité à la page 138

kénavo

noel

Dernière modification par nono (2012-03-21 14:52:04)

gabigo29 · 2012-03-21 20:58:29

Pour concevoir en pdf - fastoche
si on ne dispose pas de Word - télécharger OpenOffice de SUN en + c'est gratuit !!!!
l'équivalent WORD s'appelle openoffice writer
il dispose d'un onglet exporter en PDF - donc rien à faire
attention des fichiers texte + images peuvent devenir de taille énorme 15 à 20 MO !!!!
alors baisser la résolution des images
bonne soirée
GG

gabigo29 · 2012-04-15 07:13:00

Bonjour à tous
la dernière mise à jouir d'Acrobat Reader propose :
dans un document PDF, un onglet petmettant de traduire directement du PDF en WORD
cela suppose d'avoir Word installé sur votre micro
une facilité de plus !!!!!
amicalement
GG

Loïc · 2012-06-06 08:10:11

Denez a écrit :

Bonsoir,
Je cherche un conseil pour "béaucien" de l'informatique.
Je travaille en ce moment sur des histoires de Bretagnes écrites au 15ème et 16ème siècles, en vieux français. Sur Gallica j'ai trouvé des sources intéressantes, mais les documents pdf ne permettent pas de recherches directes par mots ou ensemble de caractères. Existe t il des logiciels qui permettent des reconnaissances de mots ou de suites de caractères sur des documents importants (800 pages). Le but étant une fois cette transcription faite d'effectuer des recherches dans le document, plus facilement.
Merci par avance.
Noz vat deoc'h,
Klask a ran un ali evit ur genaoueg eus ar stlennegezh.
Labourat a ran er mare-mañ war istorioù Breizh bet skrivet er 15vet ha 16vet kantved, e hen-galleg. Kavet am eus mammennoù dedennus war Gallica met n'eus ket tu da furchal an testennoù dre c'herioù pe strolladoù lizherennoù war an teuliadoù pdf. Bez e vefe meziantoù hag a c'hellfe anavezout gerioù pe strolladoù lizherennoù e-barzh teuliadoù bras a-walc'h (800 follenn). Ar pal zo furchal an teuliadoù en un doare aesoc'h pa vo treuzfurmet an teuliad.
Trugarez deoc'h en a-raok.
A galon
Denez

C'est le problème des textes scannés, même si leur format est *pdf, ils sont considérés comme des images et il n'est pas possible d'y faire des recherches directement sans passer par une application tierce d'OCR (Reconnaissance Optique des Caractère). Ces applications fonctionnent bien à condition que le texte scanné soit d'une qualité suffisante.

Si le document n'est pas trop lourd, tu pourra faire la conversion en ligne, il existe de nombreux OCR en ligne et tu en trouvera une liste non exhaustive à l'adresse suivante: http://roget.biz/4-ocr-gratuits-en-lign … s-logiciel

Si le poids du document est plus important, il faudra probablement installer un logiciel sur ton poste, tu en trouvera quelques uns à l'adresse suivante: http://www.01net.com/telecharger/window … index.html

Loïc

Forum du Cap-Sizun

#1 2012-03-18 20:51:39

Indexer des textes numérisés / menegeriñ testennoù niverelaet

#2 2012-03-20 20:15:17

Re : Indexer des textes numérisés / menegeriñ testennoù niverelaet

#3 2012-03-21 07:10:53

Re : Indexer des textes numérisés / menegeriñ testennoù niverelaet

#4 2012-03-21 11:34:59

Re : Indexer des textes numérisés / menegeriñ testennoù niverelaet

#5 2012-03-21 20:58:29

Re : Indexer des textes numérisés / menegeriñ testennoù niverelaet

#6 2012-04-15 07:13:00

Re : Indexer des textes numérisés / menegeriñ testennoù niverelaet

#7 2012-06-06 08:10:11

Re : Indexer des textes numérisés / menegeriñ testennoù niverelaet

Pied de page des forums