UNE UTOPIE RÉALISTE :
LA STRATÉGIE DU MIROIR
Célestin MONGA
La Banque Mondiale
Massachussets Institute of Technology2
[EDIT] quelques corrections ajoutés …
Téléchargez le pdf OCR (400ko)
ou pour les retouches éventuelles l’ODT (200ko) ou encore le fichier epub
►https://zzz.zaclys.com/PIUS-NGANDU-NKASHAMA-Trajectoires-dun-discours,116,invit,efc2b661ed2a597
Pour celleux que la procédure intéresse :
– pdf des photos des pages mises en calques 300 dpi via Gimp pour réduire les distorsions, contraster et séparer proprement chaque page
– export Gimp en fichier .mng (dernière version Gimp)
– Sur le terminal, transformation de la série mng en images autonomes jpg
$ convert -reverse -density 300 document.mng -type Grayscale -compress lzw -background white +matte -depth 32 page_%05d.jpg
– avec les images dans un seul répertoire on lance
for f in *.jpg;do tesseract $f $f -l fra;done
– puis on colle ensemble tout les textes
cat *.txt > document.txt
– reste à corriger, et mettre en page à la mano dans libreoffice en ajoutant la typo, les images, les notes …
–---
on peut aussi passer par ce script python qui fait tout en une fois ssi le pdf est « propre » c-a-d les caractères suffisamment lisibles
▻https://www.datacorner.fr/utilisation-avancee-de-tesseract-avec-python