Term Extraction | fivefilters.org

/term-extraction

  • Five Filters
    http://fivefilters.org

    en cherchant de quoi faire des #livres/#ebooks à partir du Web, je tombe (merci @arno) sur ce site (géré par Keyvan Minoukadeh). Lequel citant Edward Herman et Noam Chomsky vise à créer des technos qui favorisent la diffusion de médias indépendants :

    The aim of this project is to encourage people to start exploring the world of non-corporate online news, websites which avoid the five filters of the propaganda model.

    Le premier outil « Explore independent media » est marrant, de l’ordre de la performance artistique : on lui donne une dépêche d’agence, et il cherche dans une liste de sources d’infos indy des articles sur le sujet ; puis propose d’exporter ces articles vers un #PDF pour une lecture avancée.
    http://fivefilters.org/explore_independent_media.php

    Il y a aussi Fulltext-RSS et PDF_newspaper ; qui permettent à partir d’un flux #RSS, d’extraire les articles complets (via #readability, qu’il a porté en #PHP et que j’ai désormais intégré dans #SPIP), puis de produire un PDF (via la librairie #TCPDF)
    http://fivefilters.org/pdf-newspaper
    http://fivefilters.org/content-only

    Enfin #term_extraction permet d’extraire des concepts d’un texte (comme #OpenCalais sur #seenthis, mais en licence libre).
    http://fivefilters.org/term-extraction

    Le modèle économique est sympa : c’est du libre, mais on peut payer (pas cher !) pour une version gérée en #SaaS.

    Et puis :

    We’re happy to help activists/anarchists/progressives set this up on their servers. For anyone else, please email for paid support.

    • C’est intéressant en effet.

      Cet article rejoint cependant une problématique qui m’est chère : celle de la consultation des contenus recensés comme intéressants au cours d’une journée.

      En ce qui me concerne, je suis de moins en moins intéressé par des extractions vers PDF, et beaucoup plus par les formats mobiles (et réexploitables) de type ePub et Mobi. Heureux possesseur d’un Kindle depuis Noël (merci Mamie !), je galère avec des PDF formatés en A4 et qui m’obligent à zoomer, scroller ou tenir le Kindle en mode paysage (moins pratique). J’imagine que le problème se pose pour la plupart des possesseurs d’ebooks.

      Du coup, j’utilise Instapaper (http://www.instapaper.com) comme agrégateur de contenu (j’envoie les articles qui m’intéressent vers mon compte directement depuis mon navigateur, avec un Bookmarklet type +Seenthis, ou depuis le lecteur de flux RSS NetNewsWire ou encore depuis l’appli officielle de Twitter sur iPhone), et je récupère le tout au format Mobi le soir pour lire ça sous la couette (il faut quand même en passer par la case téléchargement et transfert en USB de l’ordinateur vers le Kindle).

      Serais donc preneur d’un flux SeenThis au format Mobi (ou ePub, la conversion se fait facilement)....

      #epub #mobi #kindle #instapaper

  • Certains auront remarqué, dans la colonne de gauche à côté du détail de chaque note (au fait, c’est quoi le nom d’un article sur SeenThis ? euh, suis-je bête, un seen, bien sûr), à côté de chaque seen donc, en plus des thèmes choisis par l’auteur au moyen des étiquettes dièses, une liste de thèmes automatiques. Celle-ci est créée par analyse du seen par OpenCalais, un outil développé par Reuteurs et capable d’extraire d’un texte des métadonnées sémantiques. Malheureusement, jusqu’à présent, je le trouve un peu limité, il extrait essentiellement les noms propres. J’ai donc fait un rapide tour de quelques autres analyseurs sémantiques qui proposent une interface de démonstration en ligne, pour avoir une idée de l’état de l’art des outils accessibles au grand public. Voici donc quatre URL qui vous permettront de réaliser quelque tests :

    AlchemyAPI http://www.alchemyapi.com/api/demo.html
    OpenCalais http://viewer.opencalais.com
    Zemanta http://www.zemanta.com/demo
    OpenAmplify http://portaltnx20.openamplify.com/AmplifyWeb_v21/AmplifyThis.html A la différence des trois précédents, ce dernier demande une clé d’API qui nécessite de s’inscrire. L’interface propose de nombreuses options, je vous conseille d’essayer les formats de sortie Tidy XML ou Signals ;

    Ces démos sont bien sûr biaisées : les formulaires ne proposent pas toutes les options des API. Et je n’ai pas vérifié lesquels de ces quatre outils annoncent être effectivement capables d’analyser des textes en français.
    Alchemy s’en sort plutôt bien, parvenant à extraire des textes les noms propres et quelques mots clés. Calais est lui malheureusement limité aux noms propres. Zemanta propose des mots clés et des contenus liés qui peuvent être très pertinents… mais dont le rapport avec mon texte m’échappe parfois. Enfin, OpenAmplifiy est celui qui m’a le plus impressionné, par la richesse des données qu’il produit et en particuliers les informations sur le ton du texte et la personnalité de l’auteur. Mais là encore, la pertinence varie de « waouh » à « wtf ‽‽‽ ».

    Au final, ces démos sont utiles pour avoir une idée des données que chaque outil peut produire. Mais pour vraiment savoir ce qu’ils ont dans le ventre, ils faut passer à l’étape suivante et essayer les API. Ce qui ne semble pas très compliqué, REST étant sauf erreur de ma part la norme.

    #Sémantique #AnalyseSémantique #WebSémantique