Automatismes et aspects sémantiques

Seenthis intègre différents automatismes destinés à déterminer, exploiter et mettre en avant des fonctionnalités basées sur le « sens » du texte. Seenthis gère donc les aspects sémantiques des contenus.

Automatismes de langue

Seenthis dispose de fonctionnalités lui permettant de déterminer la langue des messages. L’auteur se contente de saisir son message (dans n’importe quelle langue), et Seenthis est capable de déterminer automatiquement si ce texte est en français, anglais, arabe, espagnol...

Le système introduit une certaine subtilité à ce niveau :
— le message global est analysé,
— les paragraphes de citation à l’intérieur du billet sont analysés à part.

De cette façon, je peux écrire un billet en français, contenant des extraits en anglais et en espagnol. Seenthis est capable de déterminer la langue de ces différents éléments (il « sait » qu’il s’agit d’un billet en français qui cite des extraits en anglais et en espagnol).

Cette information sémantique est ensuite exploitée par Seenthis pour réaliser différents effets.

— les règles typographiques appliquées aux différents éléments du billet dépendent de la langue (les règles typographiques ne sont pas les mêmes en français et en anglais, par exemple) ;

— la direction d’affichage du texte (de gauche à droite, ou de droite à gauche pour l’arabe, le farsi, l’hébreu...) correspond bien à la langue utilisée ; on peut citer un extrait en arabe dans un billet en français, et les différentes parties du billet s’afficheront correctement ;

— le code source en HTML contient ses informations de langue ; Seenthis intègre donc ces informations sémantiques dans le code informatique des pages (on peut imaginer que Google et d’autres outils exploitent ces informations).

Traduction automatique

Puisque le système connaît la langue d’un extrait intégré à un billet, Seenthis propose une traduction automatique via Google Translate lorsqu’il détecte que la langue de la citation est différente de la langue du visiteur.

On peut donc citer sans complexes un extrait en arabe ou en suédois, puisqu’on sait que ses lecteurs qui ne comprennent que le français pourront toujours en obtenir une traduction automatique (qui vaut ce qu’elle vaut...).

Thématisation automatique

Naturellement, Seenthis gère un système de #hashtags, que les auteurs décident eux-même d’exploiter pour thématiser leurs messages.

Le système va plus loin et intègre une thématisation automatique des billets, en utilisant OpenCalais. Pour tous les billets (d’une longueur suffisante), le système obtient automatiquement une liste de thèmes.

On peut visualiser les thèmes automatiques attribués à un message en se rendant sur sa page (en cliquant, par exemple, sur la date du message, « il y a... minutes... »).

Cette information sémantique est exploitée de différentes manières sur Seenthis. Il est notamment possible de consulter la page d’un thème automatique et de s’y abonner de la même façon qu’on peut le faire avec un #hashtag.

Contenus distants

Puisque le but premier de Seenthis est la recommandation de liens hypertexte, ses automatismes sont également appliqués aux contenus des sites référencés.

Lorsque l’on référence une page Web,
— Seenthis en récupère le contenu pertinent (c’est-à-dire uniquement le « texte » d’un article, en excluant les éléments de navigation dans le site),
— la langue de cet article est déterminée automatiquement,
— on déduit automatiquement des thèmes abordés dans cet article.

Ces différentes informations sont ensuite exploitées dans Seenthis :
— les liens hypertextes indiquent la langue du site de destination (extrêmement pratique pour éviter de cliquer sur des liens vers des pages dont on ne comprend pas la langue) ;
— les thèmes de l’article distant sont exploités dans la navigation interne de Seenthis. On améliore ainsi la thématisation automatique des billets, en se basant aussi sur le contenu des sites référencés (et pas uniquement sur le texte réellement saisi dans Seenthis).