Clochix

Apprenti geek intéressé par la liberté

  • Certains auront remarqué, dans la colonne de gauche à côté du détail de chaque note (au fait, c’est quoi le nom d’un article sur SeenThis ? euh, suis-je bête, un seen, bien sûr), à côté de chaque seen donc, en plus des thèmes choisis par l’auteur au moyen des étiquettes dièses, une liste de thèmes automatiques. Celle-ci est créée par analyse du seen par OpenCalais, un outil développé par Reuteurs et capable d’extraire d’un texte des métadonnées sémantiques. Malheureusement, jusqu’à présent, je le trouve un peu limité, il extrait essentiellement les noms propres. J’ai donc fait un rapide tour de quelques autres analyseurs sémantiques qui proposent une interface de démonstration en ligne, pour avoir une idée de l’état de l’art des outils accessibles au grand public. Voici donc quatre URL qui vous permettront de réaliser quelque tests :

    AlchemyAPI http://www.alchemyapi.com/api/demo.html
    OpenCalais http://viewer.opencalais.com
    Zemanta http://www.zemanta.com/demo
    OpenAmplify http://portaltnx20.openamplify.com/AmplifyWeb_v21/AmplifyThis.html A la différence des trois précédents, ce dernier demande une clé d’API qui nécessite de s’inscrire. L’interface propose de nombreuses options, je vous conseille d’essayer les formats de sortie Tidy XML ou Signals ;

    Ces démos sont bien sûr biaisées : les formulaires ne proposent pas toutes les options des API. Et je n’ai pas vérifié lesquels de ces quatre outils annoncent être effectivement capables d’analyser des textes en français.
    Alchemy s’en sort plutôt bien, parvenant à extraire des textes les noms propres et quelques mots clés. Calais est lui malheureusement limité aux noms propres. Zemanta propose des mots clés et des contenus liés qui peuvent être très pertinents… mais dont le rapport avec mon texte m’échappe parfois. Enfin, OpenAmplifiy est celui qui m’a le plus impressionné, par la richesse des données qu’il produit et en particuliers les informations sur le ton du texte et la personnalité de l’auteur. Mais là encore, la pertinence varie de « waouh » à « wtf ‽‽‽ ».

    Au final, ces démos sont utiles pour avoir une idée des données que chaque outil peut produire. Mais pour vraiment savoir ce qu’ils ont dans le ventre, ils faut passer à l’étape suivante et essayer les API. Ce qui ne semble pas très compliqué, REST étant sauf erreur de ma part la norme.

    #Sémantique #AnalyseSémantique #WebSémantique