#dotspip

Fil @fil 11/10/2019

11

11

DotSPIP. Conversion de fichiers divers (docx, odt) au format #SPIP
▻https://github.com/Fil/DotSPIP
https://repository-images.githubusercontent.com/213935504/60757e80-eaaf-11e9-993f-afb29803e412#.png
Une application drag-drop pour macOS, qui convertit des textes de divers formats vers les {{raccourcis SPIP}}.
Ce petit utilitaire bien pratique n’avait pas été mis à jour depuis 2012… la version 2 est désormais compatible 64 bits, ce qui lui assure un avenir radieux pour les prochains millénaires. le #développement est sur passé sur github plutôt que dans un recoin de mon disque dur, ce qui n’est pas plus mal. (On utilise toujours #Platypus.)
L’ancienne documentation est sur ►http://zzz.rezo.net/DotSPIP.html ; n’hésitez pas à jouer de la pull-request.
#DotSPIP
(ah et pour la compatibilité Linux il y a une possibilité cachée ici ▻https://github.com/Fil/DotSPIP/blob/master/src/linux-gnome.txt — si quelqu’un·e arrive à le faire marcher, ce serait super)

Fil @fil
- b_b @b_b PUBLIC DOMAIN 11/10/2019
  
  #spip_blog et quel beau logo !
  
  b_b @b_b PUBLIC DOMAIN
- Fil @fil 11/10/2019
  
  logo de l’inénarrable @baroug
  
  Fil @fil
- b_b @b_b PUBLIC DOMAIN 11/10/2019
  
  Je l’avais bien repéré, c’est signé, (y) môsieur @baroug :)
  
  b_b @b_b PUBLIC DOMAIN
- baroug @baroug 11/10/2019
  
  J’envisageais de le refaire pour cette nouvelle édition justement ?
  
  baroug @baroug
- tbn @thibnton PUBLIC DOMAIN 12/10/2019
  
  Merci c’est bien urbain.
  
  tbn @thibnton PUBLIC DOMAIN
- b_b @b_b PUBLIC DOMAIN 12/10/2019
  
  @thibnton tu ne savais pas que « spipien » est un synonyme d’urbain ?
  /me => []
  
  b_b @b_b PUBLIC DOMAIN
Écrire un commentaire
Fil @fil 3/03/2016

1

1

Créer une application native avec HTML CSS JS ET PHP
▻http://base2code.com/creer-une-application-native-avec-html-css-js-et-php
#electron.io et #PHP dans une même app, si un jour je dois refaire quelque chose du type de #DotSPIP

Fil @fil

Écrire un commentaire
Fil @fil 10/05/2015

15

15

Aujourd’hui, (re-)découverte de quelques outils sympas pour traiter du texte :
#tika
TIKA est un logiciel libre écrit en Java, qui est capable de convertir à peu près n’importe quoi en HTML (ou texte). S’intègre facilement dans #DotSPIP.
L’installation avec brew (brew install tika) a l’avantage de fournir aussi un raccourci pour la ligne de commande :
tika -h file.pdf # conversion html tika -t file.pdf # conversion texte

▻http://tika.apache.org

#tesseract
Un système libre d’#OCR, qui s’intègre facilement à tika.
brew install tesseract --all-languages
tesseract -l fra file.jpg tmp && cat tmp.txt # OCR, fra = langue française tika -t file.jpg # via tika

▻https://code.google.com/p/tesseract-ocr

#alchemyAPI
Outil de #NLP (natural language processing), qui permet de faire, comme OpenCalais, de l’extraction de termes, lieux, de la détection de langue, etc. C’est un système propriétaire (IBM). L’API en PHP n’est pas difficile à utiliser. Il y a moyen d’avoir des clés gratuitement pour une utilisation réduite (1000 appels/j) si on s’engage à indiquer qu’on utilise ce système. Il existe un plugin pour Drupal (mais pas pour #SPIP).
▻https://github.com/AlchemyAPI
▻http://www.alchemyapi.com/products/demo/alchemylanguage

#sumy
création automatique de résumés de textes.
pip install sumy
Utilisation (avec l’algo edmundson) :
sumy edmundson --url=http://www.monde-diplomatique.fr/1996/02/BRIE/5224 tika -t http://www.obsarm.org/publications/damocles/versionpdf/Damocles%2085.pdf | sumy lsa --length=3

(le dernier exemple : je demande à tika de télécharger le PDF de la revue Damoclès et d’en extraire le contenu, puis je passe le résultat à sumy qui en extrait trois lignes pertinentes)
►https://github.com/miso-belica/sumy

Fil @fil
- Fil @fil 2/06/2015
  
  un équivalent de tika en python : #textract
  ▻https://textract.readthedocs.org
  installation : pip install textract
  usage : textract /path/to/file.xxx
  
  Fil @fil
- Fil @fil 30/09/2015
  
  tika en mode server:
  > tika --server 9000 > nc localhost 9000 < fichier.doc > fichier.html
  
  Fil @fil
- RastaPopoulos @rastapopoulos CC BY-NC 2/10/2015
  
  Sur le site du constructeur de paquet java Maven, j’ai trouvé hier des paquets JAR pré-compilés de toutes les dernières versions de Tika App et de Tika Server :
  L’index de tous les trucs Tika :
  ▻http://repo1.maven.org/maven2/org/apache/tika
  Tika App :
  ▻http://repo1.maven.org/maven2/org/apache/tika/tika-app/1.10
  Tika Server :
  ▻http://repo1.maven.org/maven2/org/apache/tika/tika-server/1.10
  
  RastaPopoulos @rastapopoulos CC BY-NC
- RastaPopoulos @rastapopoulos CC BY-NC 5/10/2015
  
  Et du coup avec le vrai serveur REST, en mode serveur c’est :
  java -jar tika-server-1.10.jar
  Et ensuite on envoie les fichiers en PUT sur plusieurs points d’entrées, suivant qu’on veut récupérer du texte, du HTML, du JSON même, ou juste les métadatas :
  # En texte brut curl -T truc.docx http://localhost:9998/tika --header "Accept: text/plain" # En HTML curl -T truc.docx http://localhost:9998/tika --header "Accept: text/html"
  La doc est ici :
  ▻http://wiki.apache.org/tika/TikaJAXRS
  
  RastaPopoulos @rastapopoulos CC BY-NC
- RastaPopoulos @rastapopoulos CC BY-NC 5/10/2015
  
  Et aussi en complément, j’ai trouvé cette librairie PHP pour dialoguer avec Tika en version serveur (pas celui en shell) :
  ▻https://packagist.org/packages/vaites/php-apache-tika
  ▻https://github.com/vaites/php-apache-tika
  $client = \Vaites\ApacheTika\Client::make(); $text = $client->getText('/path/to/your/document');
  
  RastaPopoulos @rastapopoulos CC BY-NC
- BoOz @booz 26/10/2015
  
  #PDF
  
  BoOz @booz
- Fil @fil 14/12/2015
  
  pour accompagner #tesseract on peut essayer #pdfsandwich, spécialisé dans les scans de journaux ▻http://www.tobias-elze.de/pdfsandwich (je note ça parce que je viens de tomber dessus : pas testé)
  
  Fil @fil
- vide @touti 6/10/2016
  
  Le dev est sur github maintenant
  ▻https://github.com/tesseract-ocr
  ▻https://github.com/tesseract-ocr/tesseract/wiki
  Quelques explications claires pour l’exemple d’une entrée en pdf de plusieurs pages images et en sortie un document pdf avec le texte reconnu et collé par dessus.
  ▻https://ryanfb.github.io/etc/2014/11/13/command_line_ocr_on_mac_os_x.html
  Éventuellement faire un
  set TESSDATA_PREFIX="C :/Projects/project/Release/tessdata"
  
  vide @touti
- line d. @line_d_ PUBLIC DOMAIN 15/05/2017
  
  Tutoriel pour récupérer le texte d’un pdf multipage avec #ImageMagick et #Tesseract (en passant par un fichier .tiff).
  ▻https://diging.atlassian.net/wiki/display/DCH/Tutorial%3A+Text+Extraction+and+OCR+with+Tesseract+and+ImageMagick
  Testé avec succès pour convertir un scan de 80 pages, après avoir essayé en vain tous les logiciels possibles sur la logithèque #ubuntu (yagf, gimageReader et OCRFeeder).
  
  line d. @line_d_ PUBLIC DOMAIN
Écrire un commentaire
ARNO* @arno ART LIBRE 30/03/2013

9

9

Je viens de faire une mise à jour de mon #plugin pour #SPIP : Office2SPIP :
▻http://zone.spip.org/trac/spip-zone/browser/_plugins_/office2spip
Documenté ici :
►http://www.paris-beyrouth.org/tutoriaux-spip/article/le-convertisseur-office2spip
Au menu :
– compatibilité minimal avec SPIP 3 (les redirections ne sont pas correctes, mais c’est pas super-grave) ;
– plus intéressant : quand on récupère une page distante, ça passe par la version PHP de Readability, on n’aspire donc que le contenu pertinent.
Au fait : quelqu’un peut me dire s’il y a quelque chose d’autre pour faire la même chose avec SPIP ? Parce que, bon, c’est tout de même des fonctionnalités carrément démentes (importer des documents Word directement via l’interface en ligne ; importer des articles du Web et se retrouver directement avec du balisage SPIP tout propre…), mais je n’ai pas l’impression qu’Office2SPIP suscite vraiment l’intérêt. Il y a une alternative plus pratique/puissante ?

ARNO* @arno ART LIBRE
- Stéphane Deschamps @notabene CC BY-NC-SA 30/03/2013
  
  En fait c’est peut-être soit que les gens ont été formés au spipcode, soit qu’ils copient-collent dans du WYSIWYG (dans spip ou ailleurs, d’ailleurs).
  
  Stéphane Deschamps @notabene CC BY-NC-SA
- kent1 @kent1 ART LIBRE 30/03/2013
  
  ou peut être l’endroit de la documentation ? les gens vont chercher plus facilement sur spip-contrib peut être (ne pas voir une critique mais je vois les mêmes problématiques avec certains de mes plugins qui sont documentés autre part)
  sinon aussi l’absence de plugins.spip.net qui est assez simple à changer en créant le zip via archivelist.txt
  sinon encore, l’absence de lien de documentation dans le plugin.xml ?
  Et finalement, la nécessité du binaire openoffice si je ne fais pas d’erreur ? ou d’autres binaires sur le serveur ? beaucoup de spip users sont quand même sur des hébergements bien fermés non ?
  Voilà quelques pistes peut être du pourquoi du comment dont deux sont particulièrement faciles à régler
  
  kent1 @kent1 ART LIBRE
- Fil @fil 2/04/2013
  
  Comme alternative il y a #DotSPIP, une petite app de bureau pour Mac sur laquelle tu drag/drop tes fichiers ; le texte spipé se retrouve dans le presse-papier, prêt à être collé. Ca n’a pas beaucoup de succès non plus, le marketing est pas au point :)
  
  Fil @fil
- RastaPopoulos @rastapopoulos CC BY-NC 2/04/2013
  
  Peut-être parce qu’il n’y a pas tant de personne sous Mac que ça... :)
  => combiner le truc d’Arno et de Fil pour faire un #webservice avec une API utilisable depuis n’importe où : ainsi, pas de problème de système particulier, et pas non plus le problème de maîtrise du serveur pour le pékin moyen, qui n’aura pas besoin d’installer telle ou telle librairie. Ensuite faire un plugin SPIP qui utilise cette API, que chacun installe chez soi facilement. #idée_pour_SPIP. :)
  
  RastaPopoulos @rastapopoulos CC BY-NC
- Fil @fil 2/04/2013
  
  je l’ai déjà faite cette API (▻http://office.rezo.net) mais jamais pris le temps de faire l’emballage
  
  Fil @fil
- vlentz @vlentz CC BY-SA 6/04/2013
  
  Si ce n’est pas sur spip contrib ça n’existe pas :-)
  
  vlentz @vlentz CC BY-SA
- Suske @suske 30/04/2013
  
  Bon, j’ai ma clé, comment je l’emploie cette API ?
  #impatient #office2spip
  
  Suske @suske
- cy_altern @cy_altern CC BY-SA 29/07/2013
  
  de façon tout à fait concurrente il y a le plugin odt2spip : ▻http://contrib.spip.net/odt2spip-creation-d-articles-a-partir-de-fichiers
  – : n’accepte que du odt en format d’entrée*
  + : aucune config serveur spécifique
  + : gère les formules de maths intégrées dans le fichier odt
  *vu que le fonctionnement est basé une XSLT odt=>spip, l’ajout du format docx n’est que l’affaire de trouver un dev accepte de trifouiller du MSOffice... (beurk !)
  
  cy_altern @cy_altern CC BY-SA
- RastaPopoulos @rastapopoulos CC BY-NC 30/07/2013
  
  @cy_altern, c’est fort possible que ça marche bien évidemment, mais je m’interroge sur la maintenance à long terme : maintenir soi-même des transformations XSLT pour un ou plusieurs formats, c’est super long et complexe, alors qu’il existe des logiciels ou librairies maintenues collectivement qui font déjà ces transformations (en plus en gérant plus de formats différents). C’est toujours le même problème, d’essayer d’utiliser des choses existantes (si ça fonctionne évidemment).
  
  RastaPopoulos @rastapopoulos CC BY-NC
- cy_altern @cy_altern CC BY-SA 7/08/2013
  
  @RastaPopoulos : dans ce cas la XSLT fait la transformation XML format OpenDocument => langage SPIP , truc qui n’existe (à ma connaissance) nulle part ailleurs (le choix de ce plugin c’est d’éviter de faire XML => HTML => SPIP)
  Pour ce qui est de la maintenance du convertisseur, il semblerait que les versions successives d’OpenOffice puis de LibreOffice n’ont jamais modifié le format du XML d’odt depuis que le plugin existe : la XSLT utilisée est restée inchangée depuis sa mise en fonction en 2009...
  
  cy_altern @cy_altern CC BY-SA
- Fil @fil 7/08/2013
  
  pour avoir testé office2spip et odt2spip en parallèle sur un gros fichier, j’ai eu les meilleurs résultats avec odt2spip
  
  Fil @fil
- b_b @b_b PUBLIC DOMAIN 1/10/2013
  
  un coup de #spip_blog pour odt2spip :)
  
  b_b @b_b PUBLIC DOMAIN
- kent1 @kent1 ART LIBRE 1/10/2013
  
  Y’a un peu de code libéré ici : ▻http://zone.spip.org/trac/spip-zone/changeset/76826
  à intégrer d’une manière ou d’une autre dans #mediaspip ... @severo risque de s’en charger
  
  kent1 @kent1 ART LIBRE
Écrire un commentaire
vide @touti 24/02/2013

2

2

Ah, c’est quand on essaie de refondre un site IWEB en un vrai site, que l’on se rend compte du chemin parcouru pour que les sources soient claires et se distinguent correctement pour tout le monde !
Bravo à tout ceux qui oeuvrent pour de bonnes pratiques web, parce que l’esclavage ça suffit !
N’est-ce pas @notabene @tetue @rastapopoulos ?
Quelle honte, ce machin infâme d’IWEB fait un énorme blougi boulga soit-disant si simple à utiliser pour un utilisateur lambda (en 98 peut-être). Il est purement impossible à exporter facilement, #Apple va planter ses utilisateurs en abandonnant ce truc crado (depuis cet été) surement parce que leurs devs chez eux n’arrivaient plus à s’y retrouver !
Par exemple, IWEB va s’amuser à créer un dossier pour chaque page, avec à l’intérieur ses css spécifiques, mais aussi du js, du xml, des images de mise en page, des fonds. Pour chaque page, oui, et avec une surcouche de widgets pour que les textes deviennent des images, plus drôles quand même. Ce qui au final donne 985 fichiers tous pareils pour le fond ! Le HTML est tellement lourd et sali qu’il faut espérer avoir le fichier domain.site généré en mode blog pour obtenir un rss qui n’accepte malheureusement de lister que 50 articles. Comment ? mystère ! Tout ça espérant qu’IWEB ne rende pas l’âme en criant des Warnings de partout !
#logiciel_privatif #IWEB #bonnes_pratiques #HTML

vide @touti
- Monolecte 😷🤬 @monolecte CC BY-NC-SA 24/02/2013
  
  À ce niveau-là, faut pas refondre, faut repartir à 0.
  
  Monolecte 😷🤬 @monolecte CC BY-NC-SA
- vide @touti 24/02/2013
  
  J’aurais bien aimé mais c’est impossible, il y a 300 articles importants à reprendre à la demande de l’association !
  
  vide @touti
- Fil @fil 4/04/2013
  
  peut-être avec #DotSPIP ? Il te transforme les pages HTML les plus crades en texte au format #SPIP.
  
  Fil @fil
- vide @touti 4/04/2013
  
  Pour pas mal de pages en fait je suis passée par la syndication avec importation des items en articles SPIP2 + un plugin que j’ai fabriqué qui se nomme Docker, qui est une interface pour importer les documents distants. J’ai installé SPIP3 par dessus.
  ▻http://zone.spip.org/trac/spip-zone/browser/_plugins_/docker
  Mais pour les pages en dur d’habitude j’utilise memo.php d’un certain fil ;) ▻http://contrib.spip.net/Le-bouton-memo Sinon j’ai parfois dû récupérer à la main le contenu des alt des images des textes… pourquoi faire simple hein #apple ?
  
  vide @touti
- vide @touti 4/04/2013
  
  Ah ! et évidemment merci pour ►http://zzz.rezo.net/DotSPIP.html qui est très bien et à conseiller vraiment, il faut être en mac ceci dit.
  
  vide @touti
Écrire un commentaire
robin @robin CC BY 18/01/2013

2

2

Platypus | Sveinbjorn Thordarson
▻http://sveinbjorn.org/platypus
Platypus is a developer tool for the Mac OS X operating system. It creates native Mac OS X applications from interpreted scripts such as shell scripts or Perl, Ruby and Python programs. This is done by wrapping the script in an application bundle along with a native executable binary that runs the script.
- #Mac OS X
- #Perl
- #Python
- #Ruby
- #operating system
- #Perl
robin @robin CC BY
- Fil @fil 18/01/2013
  
  je l’utilise pour #DotSPIP, c’est pas mal
  
  Fil @fil
Écrire un commentaire
Fil @fil 30/01/2012

3

3

#DotSPIP
►http://zzz.rezo.net/DotSPIP.html
DotSPIP est une application pour #Mac OS X qui permet de #convertir facilement des fichiers texte de tout type vers les raccourcis #SPIP.
http://zzz.rezo.net/local/cache-vignettes/L200xH200/arton83-fddb6.png

Fil @fil
- 0gust1 @0gust1 CC BY-NC 31/01/2012
  
  Quelle belle icône ! :)
  
  0gust1 @0gust1 CC BY-NC
Écrire un commentaire