Seenthis
•
 
Identifiants personnels
  • [mot de passe oublié ?]

 

Fil

@fil

 ? — fil@rezo.net — ►https://twitter.com/recifs — ►https://rezo.net — ►https://visionscarto.net — https://vis.social/@fil

//
RSS: Fil
tous les messages de Fil
  • @fil
    Fil @fil 10/05/2015
    15
    @monolecte
    @spip
    @reka
    @7h36
    @rastapopoulos
    @booz
    @thomasschmit
    @ze_dach
    @denisb
    @goom
    @b_b
    @touti
    @line_d_
    15

    Aujourd’hui, (re-)découverte de quelques outils sympas pour traiter du texte :

    #tika

    TIKA est un logiciel libre écrit en Java, qui est capable de convertir à peu près n’importe quoi en HTML (ou texte). S’intègre facilement dans #DotSPIP.

    L’installation avec brew (brew install tika) a l’avantage de fournir aussi un raccourci pour la ligne de commande :

    tika -h file.pdf  # conversion html
    tika -t file.pdf  # conversion texte

    ▻http://tika.apache.org

    #tesseract

    Un système libre d’#OCR, qui s’intègre facilement à tika.
    brew install tesseract --all-languages

    tesseract -l fra file.jpg tmp && cat tmp.txt  # OCR, fra = langue française
    tika -t file.jpg   # via tika

    ▻https://code.google.com/p/tesseract-ocr

    #alchemyAPI

    Outil de #NLP (natural language processing), qui permet de faire, comme OpenCalais, de l’extraction de termes, lieux, de la détection de langue, etc. C’est un système propriétaire (IBM). L’API en PHP n’est pas difficile à utiliser. Il y a moyen d’avoir des clés gratuitement pour une utilisation réduite (1000 appels/j) si on s’engage à indiquer qu’on utilise ce système. Il existe un plugin pour Drupal (mais pas pour #SPIP).

    ▻https://github.com/AlchemyAPI
    ▻http://www.alchemyapi.com/products/demo/alchemylanguage

    #sumy

    création automatique de résumés de textes.
    pip install sumy

    Utilisation (avec l’algo edmundson) :

    sumy edmundson --url=http://www.monde-diplomatique.fr/1996/02/BRIE/5224
    tika -t http://www.obsarm.org/publications/damocles/versionpdf/Damocles%2085.pdf | sumy lsa --length=3

    (le dernier exemple : je demande à tika de télécharger le PDF de la revue Damoclès et d’en extraire le contenu, puis je passe le résultat à sumy qui en extrait trois lignes pertinentes)
    ►https://github.com/miso-belica/sumy

    Fil @fil
    • @fil
      Fil @fil 2/06/2015

      un équivalent de tika en python : #textract
      ▻https://textract.readthedocs.org
      installation : pip install textract
      usage : textract /path/to/file.xxx

      Fil @fil
    • @fil
      Fil @fil 30/09/2015

      tika en mode server:

      > tika --server 9000
      > nc localhost 9000 < fichier.doc > fichier.html  
      Fil @fil
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 2/10/2015

      Sur le site du constructeur de paquet java Maven, j’ai trouvé hier des paquets JAR pré-compilés de toutes les dernières versions de Tika App et de Tika Server :

      L’index de tous les trucs Tika :
      ▻http://repo1.maven.org/maven2/org/apache/tika

      Tika App :
      ▻http://repo1.maven.org/maven2/org/apache/tika/tika-app/1.10

      Tika Server :
      ▻http://repo1.maven.org/maven2/org/apache/tika/tika-server/1.10

      RastaPopoulos @rastapopoulos CC BY-NC
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 5/10/2015

      Et du coup avec le vrai serveur REST, en mode serveur c’est :

      java -jar tika-server-1.10.jar

      Et ensuite on envoie les fichiers en PUT sur plusieurs points d’entrées, suivant qu’on veut récupérer du texte, du HTML, du JSON même, ou juste les métadatas :

      # En texte brut
      curl -T truc.docx http://localhost:9998/tika --header "Accept: text/plain"

      # En HTML
      curl -T truc.docx http://localhost:9998/tika --header "Accept: text/html"

      La doc est ici :
      ▻http://wiki.apache.org/tika/TikaJAXRS

      RastaPopoulos @rastapopoulos CC BY-NC
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 5/10/2015

      Et aussi en complément, j’ai trouvé cette librairie PHP pour dialoguer avec Tika en version serveur (pas celui en shell) :
      ▻https://packagist.org/packages/vaites/php-apache-tika
      ▻https://github.com/vaites/php-apache-tika

      $client = \Vaites\ApacheTika\Client::make();
      $text = $client->getText('/path/to/your/document');
      RastaPopoulos @rastapopoulos CC BY-NC
    • @booz
      BoOz @booz 26/10/2015

      #PDF

      BoOz @booz
    • @fil
      Fil @fil 14/12/2015

      pour accompagner #tesseract on peut essayer #pdfsandwich, spécialisé dans les scans de journaux ▻http://www.tobias-elze.de/pdfsandwich (je note ça parce que je viens de tomber dessus : pas testé)

      Fil @fil
    • @touti
      vide @touti 6/10/2016

      Le dev est sur github maintenant

      ▻https://github.com/tesseract-ocr
      ▻https://github.com/tesseract-ocr/tesseract/wiki

      Quelques explications claires pour l’exemple d’une entrée en pdf de plusieurs pages images et en sortie un document pdf avec le texte reconnu et collé par dessus.
      ▻https://ryanfb.github.io/etc/2014/11/13/command_line_ocr_on_mac_os_x.html

      Éventuellement faire un
      set TESSDATA_PREFIX="C :/Projects/project/Release/tessdata"

      vide @touti
    • @line_d_
      line d. @line_d_ PUBLIC DOMAIN 15/05/2017

      Tutoriel pour récupérer le texte d’un pdf multipage avec #ImageMagick et #Tesseract (en passant par un fichier .tiff).
      ▻https://diging.atlassian.net/wiki/display/DCH/Tutorial%3A+Text+Extraction+and+OCR+with+Tesseract+and+ImageMagick
      Testé avec succès pour convertir un scan de 80 pages, après avoir essayé en vain tous les logiciels possibles sur la logithèque #ubuntu (yagf, gimageReader et OCRFeeder).

      line d. @line_d_ PUBLIC DOMAIN
    Écrire un commentaire

thèmes

  • #alchemyAPI
  • #DotSPIP
  • #NLP
  • #OCR
  • #SPIP
  • #sumy
  • #tesseract
  • #tika
À propos de Seenthis Propriété intellectuelle Recommandations API