Seenthis
•
 
Identifiants personnels
  • [mot de passe oublié ?]

 
  • #d
  • #do
  • #dot
RSS: #dotspip

#dotspip

  • @fil
    Fil @fil 11/10/2019
    11
    @whilelm
    @spip
    @arno
    @tofulm
    @touti
    @7h36
    @jeanmarie
    @fredlm
    @cy_altern
    @ari
    @habbon
    11

    DotSPIP. Conversion de fichiers divers (docx, odt) au format #SPIP
    ▻https://github.com/Fil/DotSPIP

    https://repository-images.githubusercontent.com/213935504/60757e80-eaaf-11e9-993f-afb29803e412#.png

    Une application drag-drop pour macOS, qui convertit des textes de divers formats vers les {{raccourcis SPIP}}.

    Ce petit utilitaire bien pratique n’avait pas été mis à jour depuis 2012… la version 2 est désormais compatible 64 bits, ce qui lui assure un avenir radieux pour les prochains millénaires. le #développement est sur passé sur github plutôt que dans un recoin de mon disque dur, ce qui n’est pas plus mal. (On utilise toujours #Platypus.)

    L’ancienne documentation est sur ►http://zzz.rezo.net/DotSPIP.html ; n’hésitez pas à jouer de la pull-request.

    #DotSPIP

    (ah et pour la compatibilité Linux il y a une possibilité cachée ici ▻https://github.com/Fil/DotSPIP/blob/master/src/linux-gnome.txt — si quelqu’un·e arrive à le faire marcher, ce serait super)

    Fil @fil
    • @b_b
      b_b @b_b PUBLIC DOMAIN 11/10/2019

      #spip_blog et quel beau logo !

      b_b @b_b PUBLIC DOMAIN
    • @fil
      Fil @fil 11/10/2019
      @baroug

      logo de l’inénarrable @baroug

      Fil @fil
    • @b_b
      b_b @b_b PUBLIC DOMAIN 11/10/2019
      @baroug

      Je l’avais bien repéré, c’est signé, (y) môsieur @baroug :)

      b_b @b_b PUBLIC DOMAIN
    • @baroug
      baroug @baroug 11/10/2019

      J’envisageais de le refaire pour cette nouvelle édition justement ?

      baroug @baroug
    • @thibnton
      tbn @thibnton PUBLIC DOMAIN 12/10/2019

      Merci c’est bien urbain.

      tbn @thibnton PUBLIC DOMAIN
    • @b_b
      b_b @b_b PUBLIC DOMAIN 12/10/2019
      @thibnton

      @thibnton tu ne savais pas que « spipien » est un synonyme d’urbain ?

      /me => []

      b_b @b_b PUBLIC DOMAIN
    Écrire un commentaire
  • @fil
    Fil @fil 3/03/2016
    1
    @biggrizzly
    1

    Créer une application native avec HTML CSS JS ET PHP
    ▻http://base2code.com/creer-une-application-native-avec-html-css-js-et-php

    #electron.io et #PHP dans une même app, si un jour je dois refaire quelque chose du type de #DotSPIP

    Fil @fil
    Écrire un commentaire
  • @fil
    Fil @fil 10/05/2015
    15
    @monolecte
    @spip
    @reka
    @7h36
    @rastapopoulos
    @booz
    @thomasschmit
    @ze_dach
    @denisb
    @goom
    @b_b
    @touti
    @line_d_
    15

    Aujourd’hui, (re-)découverte de quelques outils sympas pour traiter du texte :

    #tika

    TIKA est un logiciel libre écrit en Java, qui est capable de convertir à peu près n’importe quoi en HTML (ou texte). S’intègre facilement dans #DotSPIP.

    L’installation avec brew (brew install tika) a l’avantage de fournir aussi un raccourci pour la ligne de commande :

    tika -h file.pdf  # conversion html
    tika -t file.pdf  # conversion texte

    ▻http://tika.apache.org

    #tesseract

    Un système libre d’#OCR, qui s’intègre facilement à tika.
    brew install tesseract --all-languages

    tesseract -l fra file.jpg tmp && cat tmp.txt  # OCR, fra = langue française
    tika -t file.jpg   # via tika

    ▻https://code.google.com/p/tesseract-ocr

    #alchemyAPI

    Outil de #NLP (natural language processing), qui permet de faire, comme OpenCalais, de l’extraction de termes, lieux, de la détection de langue, etc. C’est un système propriétaire (IBM). L’API en PHP n’est pas difficile à utiliser. Il y a moyen d’avoir des clés gratuitement pour une utilisation réduite (1000 appels/j) si on s’engage à indiquer qu’on utilise ce système. Il existe un plugin pour Drupal (mais pas pour #SPIP).

    ▻https://github.com/AlchemyAPI
    ▻http://www.alchemyapi.com/products/demo/alchemylanguage

    #sumy

    création automatique de résumés de textes.
    pip install sumy

    Utilisation (avec l’algo edmundson) :

    sumy edmundson --url=http://www.monde-diplomatique.fr/1996/02/BRIE/5224
    tika -t http://www.obsarm.org/publications/damocles/versionpdf/Damocles%2085.pdf | sumy lsa --length=3

    (le dernier exemple : je demande à tika de télécharger le PDF de la revue Damoclès et d’en extraire le contenu, puis je passe le résultat à sumy qui en extrait trois lignes pertinentes)
    ►https://github.com/miso-belica/sumy

    Fil @fil
    • @fil
      Fil @fil 2/06/2015

      un équivalent de tika en python : #textract
      ▻https://textract.readthedocs.org
      installation : pip install textract
      usage : textract /path/to/file.xxx

      Fil @fil
    • @fil
      Fil @fil 30/09/2015

      tika en mode server:

      > tika --server 9000
      > nc localhost 9000 < fichier.doc > fichier.html  
      Fil @fil
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 2/10/2015

      Sur le site du constructeur de paquet java Maven, j’ai trouvé hier des paquets JAR pré-compilés de toutes les dernières versions de Tika App et de Tika Server :

      L’index de tous les trucs Tika :
      ▻http://repo1.maven.org/maven2/org/apache/tika

      Tika App :
      ▻http://repo1.maven.org/maven2/org/apache/tika/tika-app/1.10

      Tika Server :
      ▻http://repo1.maven.org/maven2/org/apache/tika/tika-server/1.10

      RastaPopoulos @rastapopoulos CC BY-NC
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 5/10/2015

      Et du coup avec le vrai serveur REST, en mode serveur c’est :

      java -jar tika-server-1.10.jar

      Et ensuite on envoie les fichiers en PUT sur plusieurs points d’entrées, suivant qu’on veut récupérer du texte, du HTML, du JSON même, ou juste les métadatas :

      # En texte brut
      curl -T truc.docx http://localhost:9998/tika --header "Accept: text/plain"

      # En HTML
      curl -T truc.docx http://localhost:9998/tika --header "Accept: text/html"

      La doc est ici :
      ▻http://wiki.apache.org/tika/TikaJAXRS

      RastaPopoulos @rastapopoulos CC BY-NC
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 5/10/2015

      Et aussi en complément, j’ai trouvé cette librairie PHP pour dialoguer avec Tika en version serveur (pas celui en shell) :
      ▻https://packagist.org/packages/vaites/php-apache-tika
      ▻https://github.com/vaites/php-apache-tika

      $client = \Vaites\ApacheTika\Client::make();
      $text = $client->getText('/path/to/your/document');
      RastaPopoulos @rastapopoulos CC BY-NC
    • @booz
      BoOz @booz 26/10/2015

      #PDF

      BoOz @booz
    • @fil
      Fil @fil 14/12/2015

      pour accompagner #tesseract on peut essayer #pdfsandwich, spécialisé dans les scans de journaux ▻http://www.tobias-elze.de/pdfsandwich (je note ça parce que je viens de tomber dessus : pas testé)

      Fil @fil
    • @touti
      vide @touti 6/10/2016

      Le dev est sur github maintenant

      ▻https://github.com/tesseract-ocr
      ▻https://github.com/tesseract-ocr/tesseract/wiki

      Quelques explications claires pour l’exemple d’une entrée en pdf de plusieurs pages images et en sortie un document pdf avec le texte reconnu et collé par dessus.
      ▻https://ryanfb.github.io/etc/2014/11/13/command_line_ocr_on_mac_os_x.html

      Éventuellement faire un
      set TESSDATA_PREFIX="C :/Projects/project/Release/tessdata"

      vide @touti
    • @line_d_
      line d. @line_d_ PUBLIC DOMAIN 15/05/2017

      Tutoriel pour récupérer le texte d’un pdf multipage avec #ImageMagick et #Tesseract (en passant par un fichier .tiff).
      ▻https://diging.atlassian.net/wiki/display/DCH/Tutorial%3A+Text+Extraction+and+OCR+with+Tesseract+and+ImageMagick
      Testé avec succès pour convertir un scan de 80 pages, après avoir essayé en vain tous les logiciels possibles sur la logithèque #ubuntu (yagf, gimageReader et OCRFeeder).

      line d. @line_d_ PUBLIC DOMAIN
    Écrire un commentaire
  • @arno
    ARN😷* @arno ART LIBRE 30/03/2013
    9
    @kent1
    @solidairnet
    @rastapopoulos
    @fil
    @touti
    @7h36
    @suske
    @severo
    @spip
    9

    Je viens de faire une mise à jour de mon #plugin pour #SPIP : Office2SPIP :
    ▻http://zone.spip.org/trac/spip-zone/browser/_plugins_/office2spip

    Documenté ici :
    ►http://www.paris-beyrouth.org/tutoriaux-spip/article/le-convertisseur-office2spip

    Au menu :
    – compatibilité minimal avec SPIP 3 (les redirections ne sont pas correctes, mais c’est pas super-grave) ;
    – plus intéressant : quand on récupère une page distante, ça passe par la version PHP de Readability, on n’aspire donc que le contenu pertinent.

    Au fait : quelqu’un peut me dire s’il y a quelque chose d’autre pour faire la même chose avec SPIP ? Parce que, bon, c’est tout de même des fonctionnalités carrément démentes (importer des documents Word directement via l’interface en ligne ; importer des articles du Web et se retrouver directement avec du balisage SPIP tout propre…), mais je n’ai pas l’impression qu’Office2SPIP suscite vraiment l’intérêt. Il y a une alternative plus pratique/puissante ?

    ARN😷* @arno ART LIBRE
    • @notabene
      Stéphane Deschamps @notabene CC BY-NC-SA 30/03/2013

      En fait c’est peut-être soit que les gens ont été formés au spipcode, soit qu’ils copient-collent dans du WYSIWYG (dans spip ou ailleurs, d’ailleurs).

      Stéphane Deschamps @notabene CC BY-NC-SA
    • @kent1
      kent1 @kent1 ART LIBRE 30/03/2013

      ou peut être l’endroit de la documentation ? les gens vont chercher plus facilement sur spip-contrib peut être (ne pas voir une critique mais je vois les mêmes problématiques avec certains de mes plugins qui sont documentés autre part)

      sinon aussi l’absence de plugins.spip.net qui est assez simple à changer en créant le zip via archivelist.txt

      sinon encore, l’absence de lien de documentation dans le plugin.xml ?

      Et finalement, la nécessité du binaire openoffice si je ne fais pas d’erreur ? ou d’autres binaires sur le serveur ? beaucoup de spip users sont quand même sur des hébergements bien fermés non ?

      Voilà quelques pistes peut être du pourquoi du comment dont deux sont particulièrement faciles à régler

      kent1 @kent1 ART LIBRE
    • @fil
      Fil @fil 2/04/2013

      Comme alternative il y a #DotSPIP, une petite app de bureau pour Mac sur laquelle tu drag/drop tes fichiers ; le texte spipé se retrouve dans le presse-papier, prêt à être collé. Ca n’a pas beaucoup de succès non plus, le marketing est pas au point :)

      Fil @fil
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 2/04/2013

      Peut-être parce qu’il n’y a pas tant de personne sous Mac que ça... :)

      => combiner le truc d’Arno et de Fil pour faire un #webservice avec une API utilisable depuis n’importe où : ainsi, pas de problème de système particulier, et pas non plus le problème de maîtrise du serveur pour le pékin moyen, qui n’aura pas besoin d’installer telle ou telle librairie. Ensuite faire un plugin SPIP qui utilise cette API, que chacun installe chez soi facilement. #idée_pour_SPIP. :)

      RastaPopoulos @rastapopoulos CC BY-NC
    • @fil
      Fil @fil 2/04/2013

      je l’ai déjà faite cette API (▻http://office.rezo.net) mais jamais pris le temps de faire l’emballage

      Fil @fil
    • @vlentz
      vlentz @vlentz CC BY-SA 6/04/2013

      Si ce n’est pas sur spip contrib ça n’existe pas :-)

      vlentz @vlentz CC BY-SA
    • @suske
      Suske @suske 30/04/2013

      Bon, j’ai ma clé, comment je l’emploie cette API ?

      #impatient #office2spip

      Suske @suske
    • @cy_altern
      cy_altern @cy_altern CC BY-SA 29/07/2013

      de façon tout à fait concurrente il y a le plugin odt2spip : ▻http://contrib.spip.net/odt2spip-creation-d-articles-a-partir-de-fichiers
      – : n’accepte que du odt en format d’entrée*
      + : aucune config serveur spécifique
      + : gère les formules de maths intégrées dans le fichier odt

      *vu que le fonctionnement est basé une XSLT odt=>spip, l’ajout du format docx n’est que l’affaire de trouver un dev accepte de trifouiller du MSOffice... (beurk !)

      cy_altern @cy_altern CC BY-SA
    • @rastapopoulos
      RastaPopoulos @rastapopoulos CC BY-NC 30/07/2013
      @cy_altern

      @cy_altern, c’est fort possible que ça marche bien évidemment, mais je m’interroge sur la maintenance à long terme : maintenir soi-même des transformations XSLT pour un ou plusieurs formats, c’est super long et complexe, alors qu’il existe des logiciels ou librairies maintenues collectivement qui font déjà ces transformations (en plus en gérant plus de formats différents). C’est toujours le même problème, d’essayer d’utiliser des choses existantes (si ça fonctionne évidemment).

      RastaPopoulos @rastapopoulos CC BY-NC
    • @cy_altern
      cy_altern @cy_altern CC BY-SA 7/08/2013
      @rastapopoulos

      @RastaPopoulos : dans ce cas la XSLT fait la transformation XML format OpenDocument => langage SPIP , truc qui n’existe (à ma connaissance) nulle part ailleurs (le choix de ce plugin c’est d’éviter de faire XML => HTML => SPIP)
      Pour ce qui est de la maintenance du convertisseur, il semblerait que les versions successives d’OpenOffice puis de LibreOffice n’ont jamais modifié le format du XML d’odt depuis que le plugin existe : la XSLT utilisée est restée inchangée depuis sa mise en fonction en 2009...

      cy_altern @cy_altern CC BY-SA
    • @fil
      Fil @fil 7/08/2013

      pour avoir testé office2spip et odt2spip en parallèle sur un gros fichier, j’ai eu les meilleurs résultats avec odt2spip

      Fil @fil
    • @b_b
      b_b @b_b PUBLIC DOMAIN 1/10/2013

      un coup de #spip_blog pour odt2spip :)

      b_b @b_b PUBLIC DOMAIN
    • @kent1
      kent1 @kent1 ART LIBRE 1/10/2013
      @severo

      Y’a un peu de code libéré ici : ▻http://zone.spip.org/trac/spip-zone/changeset/76826

      à intégrer d’une manière ou d’une autre dans #mediaspip ... @severo risque de s’en charger

      kent1 @kent1 ART LIBRE
    Écrire un commentaire
  • @touti
    vide @touti 24/02/2013
    2
    @rastapopoulos
    @mukt
    2
    @notabene @tetue @rastapopoulos

    Ah, c’est quand on essaie de refondre un site IWEB en un vrai site, que l’on se rend compte du chemin parcouru pour que les sources soient claires et se distinguent correctement pour tout le monde !

    Bravo à tout ceux qui oeuvrent pour de bonnes pratiques web, parce que l’esclavage ça suffit !
    N’est-ce pas @notabene @tetue @rastapopoulos ?

    Quelle honte, ce machin infâme d’IWEB fait un énorme blougi boulga soit-disant si simple à utiliser pour un utilisateur lambda (en 98 peut-être). Il est purement impossible à exporter facilement, #Apple va planter ses utilisateurs en abandonnant ce truc crado (depuis cet été) surement parce que leurs devs chez eux n’arrivaient plus à s’y retrouver !

    Par exemple, IWEB va s’amuser à créer un dossier pour chaque page, avec à l’intérieur ses css spécifiques, mais aussi du js, du xml, des images de mise en page, des fonds. Pour chaque page, oui, et avec une surcouche de widgets pour que les textes deviennent des images, plus drôles quand même. Ce qui au final donne 985 fichiers tous pareils pour le fond ! Le HTML est tellement lourd et sali qu’il faut espérer avoir le fichier domain.site généré en mode blog pour obtenir un rss qui n’accepte malheureusement de lister que 50 articles. Comment ? mystère ! Tout ça espérant qu’IWEB ne rende pas l’âme en criant des Warnings de partout !

    #logiciel_privatif #IWEB #bonnes_pratiques #HTML

    vide @touti
    • @monolecte
      M😷N😷LECTE 🤬 @monolecte CC BY-NC-SA 24/02/2013

      À ce niveau-là, faut pas refondre, faut repartir à 0.

      M😷N😷LECTE 🤬 @monolecte CC BY-NC-SA
    • @touti
      vide @touti 24/02/2013

      J’aurais bien aimé mais c’est impossible, il y a 300 articles importants à reprendre à la demande de l’association !

      vide @touti
    • @fil
      Fil @fil 4/04/2013

      peut-être avec #DotSPIP ? Il te transforme les pages HTML les plus crades en texte au format #SPIP.

      Fil @fil
    • @touti
      vide @touti 4/04/2013

      Pour pas mal de pages en fait je suis passée par la syndication avec importation des items en articles SPIP2 + un plugin que j’ai fabriqué qui se nomme Docker, qui est une interface pour importer les documents distants. J’ai installé SPIP3 par dessus.

      ▻http://zone.spip.org/trac/spip-zone/browser/_plugins_/docker

      Mais pour les pages en dur d’habitude j’utilise memo.php d’un certain fil ;) ▻http://contrib.spip.net/Le-bouton-memo Sinon j’ai parfois dû récupérer à la main le contenu des alt des images des textes… pourquoi faire simple hein #apple ?

      vide @touti
    • @touti
      vide @touti 4/04/2013

      Ah ! et évidemment merci pour ►http://zzz.rezo.net/DotSPIP.html qui est très bien et à conseiller vraiment, il faut être en mac ceci dit.

      vide @touti
    Écrire un commentaire
  • @robin
    robin @robin CC BY 18/01/2013
    2
    @simplicissimus
    2

    Platypus | Sveinbjorn Thordarson
    ▻http://sveinbjorn.org/platypus

    Platypus is a developer tool for the Mac OS X operating system. It creates native Mac OS X applications from interpreted scripts such as shell scripts or Perl, Ruby and Python programs. This is done by wrapping the script in an application bundle along with a native executable binary that runs the script.

    • #Mac OS X
    • #Perl
    • #Python
    • #Ruby
    • #operating system
    • #Perl
    robin @robin CC BY
    • @fil
      Fil @fil 18/01/2013

      je l’utilise pour #DotSPIP, c’est pas mal

      Fil @fil
    Écrire un commentaire
  • @fil
    Fil @fil 30/01/2012
    3
    @baroug
    @nhoizey
    @kent1
    3

    #DotSPIP
    ►http://zzz.rezo.net/DotSPIP.html

    DotSPIP est une application pour #Mac OS X qui permet de #convertir facilement des fichiers texte de tout type vers les raccourcis #SPIP.

    http://zzz.rezo.net/local/cache-vignettes/L200xH200/arton83-fddb6.png

    Fil @fil
    • @0gust1
      0gust1 @0gust1 CC BY-NC 31/01/2012

      Quelle belle icône ! :)

      0gust1 @0gust1 CC BY-NC
    Écrire un commentaire

Thèmes liés

  • #dotspip
  • #spip
  • #mac
  • #convertir
  • #spip
  • #spip_blog
  • #tesseract