Seenthis
•
 
Identifiants personnels
  • [mot de passe oublié ?]

 
  • #o
  • #oc
RSS: #ocr

#ocr

  • #ocrtis
  • #ocr_javascript_web_text_image_clevermarks
  • @hackernoon
    Hacker Noon @hackernoon CC BY-SA 7/01/2019

    Simple #ocr implementation on Android with #google’s ML Kit
    ▻https://hackernoon.com/simple-ocr-implementation-on-android-with-googles-ml-kit-ceb4cdd8d70c?so

    https://cdn-images-1.medium.com/max/1024/1*ltutxuEU1QPT06HKCxj62Q.jpeg

    New technologies are evolving rapidly. Some of the newest solutions are gaining popularity every day. Optical Character Recognition (OCR) is nothing new, but perfecting it with machine learning may shed a new light on OCR. It’s obviously a broad subject. Nevertheless, I’ll try to briefly introduce you to the machine learning within OCR implementation on Android. I’ll also present some of its functions, basing on an easily available software called Google Firebase ML Kit.What is OCR?Nowadays, almost everything is digital. Books, newspapers, articles — name it. So what can be done to make a written or printed text digitized or even translated? Optical Character Recognition (OCR) comes with the solution. It’s capable of finding the text on the images and making it digital.Whenever you need to (...)

    #machine-learning #android-app-development

    • #Google
    • #android
    Hacker Noon @hackernoon CC BY-SA
    Écrire un commentaire

  • @hackernoon
    Hacker Noon @hackernoon CC BY-SA 14/05/2018

    How to train a #keras model to recognize text with variable length
    ▻https://hackernoon.com/how-to-train-a-keras-model-to-recognize-text-with-variable-length-10f306

    https://cdn-images-1.medium.com/max/1000/0*9lLsLKAvHFq0_bMP.png

    I have played with the Keras official image_ocr.py example for a while and want to share my takeaways in this post.The official example only does the training for the model while missing the prediction part, and my final source code is available both on my GitHub as well as a runnable Google Colab notebook. More technical detail of #ocr(optical character recognization) including the model structure and CTC loss will also be explained briefly in the following sections.OCR task declarationThe input will be an image contains a single line of text, the text could be at any location in the image. And the task for the model is to output the actual text given this image.For example,OCR example input & outputThe official image_ocr.py example source code is quite long and may look daunting. It (...)

    #deep-learning #machine-learning

    Hacker Noon @hackernoon CC BY-SA
    Écrire un commentaire

  • @klaus
    klaus++ @klaus 21/03/2018
    6
    @rastapopoulos
    @monolecte
    @02myseenthis01
    @touti
    @7h36
    @ze_dach
    6

    Free Online #OCR - Convert JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu to Text
    ▻http://www.newocr.com

    klaus++ @klaus
    • @touti
      touti @touti 29/03/2018

      au vu du test, meilleur que

      tesseract image.jpg output —oem 1 -l eng

      touti @touti
    Écrire un commentaire

  • @nhoizey
    Nicolas Hoizey @nhoizey CC BY-NC-SA 19/02/2018
    1
    @tofulm
    1

    Récupérer le texte d’une image en Javascript avec Tesseract.js (OCR)
    ▻https://blog.shevarezo.fr/post/2017/02/10/recuperer-texte-image-javascript-tesseractjs-ocr

    « Pour récupérer le texte d’une image, on fait appel à un OCR. Tesseract.js est un portage de la librairie Tesseract qui va vous permettre d’effectuer une reconnaissance de texte directement depuis un navigateur ! »

    #OCR_JavaScript_Web_text_image_clevermarks

    Nicolas Hoizey @nhoizey CC BY-NC-SA
    Écrire un commentaire

  • @fil
    Fil @fil 27/11/2017
    3
    @vazi
    @nicod_
    @kent1
    3

    Screenotate : Take screenshots you can search, with automatic OCR
    ▻https://screenotate.com

    Screenotate is a screenshot-taking tool which works just like macOS’s screenshot tool – one keyboard shortcut and drag – and it uses OCR (Optical Character Recognition) to recognize text in your screenshots. It’s available for macOS and Windows.

    #outil #screenshot et #OCR dans un produit pas très cher (17$) qui remplace les scrennshots-png du système - à tester

    • #OCR
    Fil @fil
    Écrire un commentaire

  • @supergeante
    Supergéante @supergeante 3/10/2017
    1
    @monolecte
    1

    Dans le genre #google est toujours #penible et la #degooglisation c’est pas gagné : google écriture manuscrite c’est vraiment bluffant, et après avoir testé plus de dix applis de notes/reconnaissance de caractères toutes plus ou moins pourries, c’est franchement ce que j’ai trouvé de plus fonctionnel. #grr #gafa #ocr #handwriting

    • #Google
    Supergéante @supergeante
    • @monolecte
      Agnès Maillard @monolecte CC BY-NC-SA 6/10/2017

      C’est la fonctionnalité OCR dans #Google_Drive ?

      Agnès Maillard @monolecte CC BY-NC-SA
    Écrire un commentaire

  • @suske
    Suske @suske 12/05/2017
    16
    @monolecte
    @biggrizzly
    @b_b
    @typo
    @fil
    @7h36
    @lluc
    @kent1
    @alexcorp
    @aris
    @denisb
    @liotier
    @goom
    @supergeante
    @tofulm
    @suske
    16

    Paperwork - La gestion de documents rendue rapide et facile - OpenPaper
    ▻https://openpaper.work/fr/#/slide_ocr

    Cliquez juste sur le bouton « Numériser »
    Votre ordinateur scanne et lit vos documents (ROC)
    Et vous permet de les retrouver rapidement

    Et un un mot... WAOUW !

    #Numérisation avec des fonctions de #calibrage #découpage, etc. mais #importation de #pdf « images » et puis aussi de l’#OCR avec marquage/#mots-clés et ça fonctionne bien ! (Moteur de recherche intégré)

    En python 3 => disponible dans toutes le crèmeries ? #Linux/#Win en tous cas et #GPLv3

    #reconnaissance_optique_de_caractères

    • #Paperwork
    Suske @suske
    • @monolecte
      Agnès Maillard @monolecte CC BY-NC-SA 12/05/2017

      J’adore : ça a résolu tous les problèmes de #ged perso d’un coup !

      Agnès Maillard @monolecte CC BY-NC-SA
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 12/05/2017

      #archivage

      RastaPopoulos @rastapopoulos CC BY-NC
    • @suske
      Suske @suske 13/05/2017

      J’ai omis de préciser : trouvé par coup de bol en furetant sur le fort utile #framalibre ▻https://framalibre.org/content/paperwork . Le bouzin y est fort mal tagué (cms ^^). Corrigé.

      Suske @suske
    • @jln_
      jln @jln_ 15/05/2017

      Parfait ! Utilisé hier, ça fonctionne bien avec des images prises depuis l’appareil photo du smartphone (et l’application qui va bien, Camscanner, malheureusement pas libre celle-là).

      C’est un peu dommage qu’on ne puisse pas modifier manuellement une mauvaise reconnaissance de caractères (ou alors je n’ai pas trouvé comment faire).

      jln @jln_
    • @suske
      Suske @suske 30/07/2017

      Le site a des faiblesses... Le github est ici: ▻https://github.com/openpaperwork/paperwork/blob/unstable/doc/install.debian.markdown

      Suske @suske
    • @supergeante
      Supergéante @supergeante 3/10/2017

      Est-ce que ça marche bien avec l’ecriture manuscrite ?

      Supergéante @supergeante
    • @monolecte
      Agnès Maillard @monolecte CC BY-NC-SA 3/10/2017

      Non, pas vraiment, aucun OCR est vraiment performant en écriture manuscrite. Mais tu peux toujours scanner la note manuscrite, la taguer et la commenter efficacement pour la retrouver plus tard.

      Agnès Maillard @monolecte CC BY-NC-SA
    • @supergeante
      Supergéante @supergeante 6/10/2017

      thx. sauf ▻https://seenthis.net/messages/634513 qui est vraiment bluffant à la volée en plus.

      Supergéante @supergeante
    Écrire un commentaire

  • @gedece
    Nouvel auteur @gedece 22/05/2016

    L’Etat français est un dealer de shit #Ocrtis
    ▻https://gauchedecombat.net/2016/05/22/letat-francais-est-un-dealer-de-shit-ocrtis

    Si ce qu’avance l’enquête de Libération est vrai, voilà qui est proprement hallucinant, c’est le cas de l’écrire : Voilà donc un ancien patron de l’Office central pour la répression du trafic illicite de stupéfiants (Ocrtis), François Thierry, « soupçonné d’avoir laissé entrer en France plusieurs dizaines de tonnes de cannabis au cours des dernières […]

    ►http://0.gravatar.com/avatar/9faa4d044bbecc32a5bef02aba121599?s=96&d=&r=G

    http://gauchedecombat.files.wordpress.com/2016/05/capture55.png

    Nouvel auteur @gedece
    Écrire un commentaire

  • @fil
    Fil @fil 18/02/2016
    3
    @supergeante
    @touti
    @biggrizzly
    3

    OpenCV | Computer vision
    ▻http://opencv.org
    ▻https://www.youtube.com/watch?v=1I4gHpctXbU

    voir aussi ▻http://tldvision.com

    Fil @fil
    • @supergeante
      Supergéante @supergeante 18/02/2016

      #tracking #surveillance

      Supergéante @supergeante
    • @fil
      Fil @fil 18/02/2016

      Google Cloud Vision API enters Beta
      ▻http://googlecloudplatform.blogspot.no/2016/02/Google-Cloud-Vision-API-enters-beta-open-to-all-to-try.

      https://3.bp.blogspot.com/-hyWOymiQ-wo/VsX1SShMBqI/AAAAAAAACW8/3PTPy-MqaO4/s640/cloud-vision-1.png

      Powered by the same technologies behind Google Photos, Cloud Vision API detects broad sets of objects in your images — from flowers to popular landmarks
      Inappropriate content detection: Powered by Google SafeSearch, Cloud Vision API moderates content from your crowd sourced images by detecting different types of inappropriate content.
      Image #sentiment analysis: Cloud Vision API can analyze emotional attributes of people in your images, like joy, sorrow and anger, along with detecting popular product logos.
      Text extraction: Optical Character Recognition (#OCR) enables you to detect text within your images, along with automatic language identification across a broad set of languages.

      Fil @fil
    • @fil
      Fil @fil 2/03/2016

      #openCV + #three.js
      ▻https://www.smashingmagazine.com/2016/02/simple-augmented-reality-with-opencv-a-three-js

      Fil @fil
    • @touti
      touti @touti 5/10/2016

      #biométrie

      touti @touti
    Écrire un commentaire

  • @fil
    Fil @fil 10/05/2015
    15
    @monolecte
    @spip
    @tibounise
    @reka
    @7h36
    @rastapopoulos
    @booz
    @thomasschmit
    @ze_dach
    @denisb
    @goom
    @b_b
    @touti
    @line_d_
    15

    Aujourd’hui, (re-)découverte de quelques outils sympas pour traiter du texte :

    #tika

    TIKA est un logiciel libre écrit en Java, qui est capable de convertir à peu près n’importe quoi en HTML (ou texte). S’intègre facilement dans #DotSPIP.

    L’installation avec brew (brew install tika) a l’avantage de fournir aussi un raccourci pour la ligne de commande :

    tika -h file.pdf  # conversion html
    tika -t file.pdf  # conversion texte

    ▻http://tika.apache.org

    #tesseract

    Un système libre d’#OCR, qui s’intègre facilement à tika.
    brew install tesseract --all-languages

    tesseract -l fra file.jpg tmp && cat tmp.txt  # OCR, fra = langue française
    tika -t file.jpg   # via tika

    ▻https://code.google.com/p/tesseract-ocr

    #alchemyAPI

    Outil de #NLP (natural language processing), qui permet de faire, comme OpenCalais, de l’extraction de termes, lieux, de la détection de langue, etc. C’est un système propriétaire (IBM). L’API en PHP n’est pas difficile à utiliser. Il y a moyen d’avoir des clés gratuitement pour une utilisation réduite (1000 appels/j) si on s’engage à indiquer qu’on utilise ce système. Il existe un plugin pour Drupal (mais pas pour #SPIP).

    ▻https://github.com/AlchemyAPI
    ▻http://www.alchemyapi.com/products/demo/alchemylanguage

    #sumy

    création automatique de résumés de textes.
    pip install sumy

    Utilisation (avec l’algo edmundson) :

    sumy edmundson --url=http://www.monde-diplomatique.fr/1996/02/BRIE/5224
    tika -t http://www.obsarm.org/publications/damocles/versionpdf/Damocles%2085.pdf | sumy lsa --length=3

    (le dernier exemple : je demande à tika de télécharger le PDF de la revue Damoclès et d’en extraire le contenu, puis je passe le résultat à sumy qui en extrait trois lignes pertinentes)
    ►https://github.com/miso-belica/sumy

    Fil @fil
    • @fil
      Fil @fil 2/06/2015

      un équivalent de tika en python : #textract
      ▻https://textract.readthedocs.org
      installation : pip install textract
      usage : textract /path/to/file.xxx

      Fil @fil
    • @fil
      Fil @fil 30/09/2015

      tika en mode server:

      > tika --server 9000
      > nc localhost 9000 < fichier.doc > fichier.html  
      Fil @fil
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 2/10/2015

      Sur le site du constructeur de paquet java Maven, j’ai trouvé hier des paquets JAR pré-compilés de toutes les dernières versions de Tika App et de Tika Server :

      L’index de tous les trucs Tika :
      ▻http://repo1.maven.org/maven2/org/apache/tika

      Tika App :
      ▻http://repo1.maven.org/maven2/org/apache/tika/tika-app/1.10

      Tika Server :
      ▻http://repo1.maven.org/maven2/org/apache/tika/tika-server/1.10

      RastaPopoulos @rastapopoulos CC BY-NC
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 5/10/2015

      Et du coup avec le vrai serveur REST, en mode serveur c’est :

      java -jar tika-server-1.10.jar

      Et ensuite on envoie les fichiers en PUT sur plusieurs points d’entrées, suivant qu’on veut récupérer du texte, du HTML, du JSON même, ou juste les métadatas :

      # En texte brut
      curl -T truc.docx http://localhost:9998/tika --header "Accept: text/plain"

      # En HTML
      curl -T truc.docx http://localhost:9998/tika --header "Accept: text/html"

      La doc est ici :
      ▻http://wiki.apache.org/tika/TikaJAXRS

      RastaPopoulos @rastapopoulos CC BY-NC
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 5/10/2015

      Et aussi en complément, j’ai trouvé cette librairie PHP pour dialoguer avec Tika en version serveur (pas celui en shell) :
      ▻https://packagist.org/packages/vaites/php-apache-tika
      ▻https://github.com/vaites/php-apache-tika

      $client = \Vaites\ApacheTika\Client::make();
      $text = $client->getText('/path/to/your/document');
      RastaPopoulos @rastapopoulos CC BY-NC
    • @booz
      BoOz @booz 26/10/2015

      #PDF

      BoOz @booz
    • @fil
      Fil @fil 14/12/2015

      pour accompagner #tesseract on peut essayer #pdfsandwich, spécialisé dans les scans de journaux ▻http://www.tobias-elze.de/pdfsandwich (je note ça parce que je viens de tomber dessus : pas testé)

      Fil @fil
    • @touti
      touti @touti 6/10/2016

      Le dev est sur github maintenant

      ▻https://github.com/tesseract-ocr
      ▻https://github.com/tesseract-ocr/tesseract/wiki

      Quelques explications claires pour l’exemple d’une entrée en pdf de plusieurs pages images et en sortie un document pdf avec le texte reconnu et collé par dessus.
      ▻https://ryanfb.github.io/etc/2014/11/13/command_line_ocr_on_mac_os_x.html

      Éventuellement faire un
      set TESSDATA_PREFIX="C :/Projects/project/Release/tessdata"

      touti @touti
    • @line_d_
      line d. @line_d_ PUBLIC DOMAIN 15/05/2017

      Tutoriel pour récupérer le texte d’un pdf multipage avec #ImageMagick et #Tesseract (en passant par un fichier .tiff).
      ▻https://diging.atlassian.net/wiki/display/DCH/Tutorial%3A+Text+Extraction+and+OCR+with+Tesseract+and+ImageMagick
      Testé avec succès pour convertir un scan de 80 pages, après avoir essayé en vain tous les logiciels possibles sur la logithèque #ubuntu (yagf, gimageReader et OCRFeeder).

      line d. @line_d_ PUBLIC DOMAIN
    Écrire un commentaire

  • @liotier
    liotier @liotier CC BY-SA 5/11/2014
    3
    @fil
    @tibounise
    @touti
    3

    Reverse #OCR - humans are no longer the only ones who try to find meaning everywhere, in everything and where perhaps none exists
    ▻http://reverseocr.tumblr.com

    http://38.media.tumblr.com/d995a05e230ba492e3057b16bc2cfee6/tumblr_nejya4OIDy1tif66co1_250.png

    • #OCR
    liotier @liotier CC BY-SA
    Écrire un commentaire

  • @fil
    Fil @fil 16/10/2014
    3
    @cela
    @simplicissimus
    @02myseenthis01
    3
    @archiloque

    Infectious Texts : Modeling Text Reuse in Nineteenth-Century Newspapers
    ▻http://viraltexts.org/infect-bighum-2013.pdf

    Abstract

    https://dl.dropbox.com/s/mg0b3uvhhve15w1/19century%20newspaper%20networks.png?dl=0

    Texts propagate through many social networks and provide evidence for their structure. We present efficient algorithms for detecting clusters of reused passages embedded within longer documents in large collections. We apply these techniques to analyzing the culture of reprinting in the United States before the Civil War. Without substantial copyright enforcement, stories, poems, news, and anecdotes circulated freely among newspapers, magazines, and books. From a collection of OCR’d newspapers, we extract a new corpus of reprinted texts, explore the geographic spread and network connections of different publications, and analyze the time dynamics of different genres.

    #journaux #histoire #information #copie #ocr #algorithme via @archiloque

    • #United States
    • #social networks
    Fil @fil
    • @fil
      Fil @fil 3/02/2015

      nouvelle adresse du PDF
      ▻http://www.ccs.neu.edu/home/dasmith/infect-bighum-2013.pdf

      Fil @fil
    Écrire un commentaire

  • @fil
    Fil @fil 29/04/2014
    4
    @whilelm
    @solidairnet
    @geneghys
    @gastlag
    4

    Project Naptha - #OCR in the browser
    ►http://projectnaptha.com

    Project Naptha automatically applies state-of-the-art computer vision algorithms on every image you see while browsing the web. The result is a seamless and intuitive experience, where you can highlight as well as copy and paste and even edit and translate the text formerly trapped within an image.

    #chrome via @francoisbriatte

    • #computer vision algorithms
    • #computer vision algorithms
    • #OCR
    Fil @fil
    • @geneghys
      geneghys @geneghys 29/04/2014

      #informatique #chrome

      geneghys @geneghys
    Écrire un commentaire

  • @cy_altern
    cy_altern @cy_altern CC BY-SA 27/03/2014
    1
    @matlap
    1

    i2OCR - Free Online #ocr
    ▻http://www.i2ocr.com

    un #outil d’OCR en ligne avec de bons résultats même sur des images colorées. (le captacha est pénible...)

    #web-based #texte

    • #OCR
    cy_altern @cy_altern CC BY-SA
    Écrire un commentaire

  • @fil
    Fil @fil 13/01/2014

    Project MUSE - Illusionary Order: Online Databases, Optical Character Recognition, and Canadian History, 1997–2010
    ▻https://muse.jhu.edu/journals/canadian_historical_review/v094/94.4.milligan01.html

    Les bases de données biaisent la recherche. La technologie commerciale de reconnaissance de caractères, initialement et principalement conçue pour numériser efficacement d’énormes quantités de documents d’entreprise ou juridiques à la mise en forme conventionnelle, s’applique désormais aux sources en histoire avec, sans surprise, des résultats qui laissent parfois à désirer. (...à les bases de données historiques en ligne ont profondément marqué l’historiographie canadienne. [Mais] les historiens doivent comprendre comment fonctionne la reconnaissance de caractères pour garantir la rigueur méthodologique de leurs travaux fondés sur ces sources.

    https://muse.jhu.edu/images/journals/pdfpreviews/canadian_historical_review/v094/94.4.milligan01.gif

    #paywall #histoire #bases_de_données #numérisation #OCR #biais

    Fil @fil
    Écrire un commentaire

  • @fil
    Fil @fil 14/01/2012
    3
    @0gust1
    @monolecte
    @supergeante
    3

    Simpler file #upload in #Google_Docs
    ▻http://googledocs.blogspot.com/2011/04/simpler-file-upload-in-google-docs.html

    Donc si je résume tu peux uploader un fichier en drag’drop, ou même envoyer directement un #dossier de documents ; s’il y a des #images, tu peux demander à google de les passer à l’#OCR et de te rendre un document éditable ; idem pour les #PDF.

    (Et côté #SPIP on sait désormais lire les documents dans ton google sous forme de boucles.)

    Fil @fil
    • @philippe_de_jonckheere
      Philippe De Jonckheere @philippe_de_jonckheere CC BY 15/01/2012

      Amusant comme je lisais trop vite le haut de ton seen, je lisais « simpler life », et à la lecture du reste du seen, j’ai eu comme un doute, et oui c’est bien simpler file et non life qu’il faut lire. Je dis cela pour que les personnes non comprenantes de notre petite communauté se sentent moins seules. Mais sinon c’est sûrement très bien ces nouvelles fonctionnalités.

      Philippe De Jonckheere @philippe_de_jonckheere CC BY
    • @fil
      Fil @fil 15/01/2012

      En ce cas tu aimeras PILS SLIP (▻http://seenthis.net/messages/51788)

      Fil @fil
    • @philippe_de_jonckheere
      Philippe De Jonckheere @philippe_de_jonckheere CC BY 15/01/2012

      Oui, oui, je n’avais pas commenté ton signalement, mais oui, très bien, merci.

      Philippe De Jonckheere @philippe_de_jonckheere CC BY
    Écrire un commentaire

  • @martin
    Martin @martin PUBLIC DOMAIN 17/11/2011
    2
    @stephane
    @suske
    2

    J’ai toujours du mal à retrouver le caractère UTF-8 « ☑ » dont je me sers parfois dans mes gazouillis. Avec ce service en ligne de reconnaissance de caractères dessinés à la souris, cela devient tout de suite plus facile :

    Shapecatcher.com : Unicode Character Recognition
    ►http://shapecatcher.com

    #service_web #utf8 #reconnaissance_de_caractères #ocr #outil

    Martin @martin PUBLIC DOMAIN
    • @stephane
      Stéphane Bortzmeyer @stephane CC BY-SA 18/11/2011

      Et si on connait le nom plutôt que la forme du caractère, le service génial est #Uniview ►http://people.w3.org/rishida/scripts/uniview

      #Unicode

      Stéphane Bortzmeyer @stephane CC BY-SA
    Écrire un commentaire

  • @fil
    Fil @fil 10/03/2011
    3
    @vlentz
    @aris
    @supergeante
    3

    Uploading and converting #PDF and #image files with #text to Google Docs
    ▻http://docs.google.com/support/bin/answer.py?hl=en&answer=176692

    #Google_Documents permet la reconnaissance de caractères #OCR à partir d’images scannées

    In Google Docs, we take your uploaded images or PDF files, scan the file, and use computer algorithms to convert the file into a Google document.

    Testé avec une photo de page de magazine deux colonnes bien déformées : le résultat n’est pas mauvais. Le colonnage n’a pas posé de problème, et seules les parties de texte les plus déformées ont un taux d’erreur important.

    • #Google
    • #use computer algorithms
    • #OCR
    • #PDF
    • #use computer algorithms
    Fil @fil
    Écrire un commentaire

Thèmes liés

  • technology: ocr
  • #ocr
  • company: google
  • #pdf
  • #outil
  • technology: optical character recognition
  • #spip
  • #histoire
  • #service_web
  • #dossier
  • #google_docs
  • #upload
  • #images
  • industryterm: use computer algorithms
  • #utf8
  • #machine-learning
  • technology: pdf
  • #image
  • technology: use computer algorithms
  • #reconnaissance_de_caractères
  • #text
  • #google_documents