À la demande générale de stephane, j’ai fabriqué des trigrammes pour permettre à SPIP…

/40983

  • [Je commence avec un exemple sur #Twitter mais ça s’applique aussi à #SeenThis et à bien d’autres.]

    Le monde est vaste et peuplé d’étrangers qui poussent l’étrangeté jusqu’à parler d’autres langues. Ainsi, sur Twitter, si on décide de suivre un allemand parce qu’il a envoyé quelques tweets intéressants en anglais, et qu’il se met ensuite à utiliser la langue de Karl Liebknecht, on est bien désarmé (sauf si on parle cette langue). Idem si on suit un japonais, un brésilien, etc.

    http://twitter.com/kenji_rikitake/status/147587075305254912

    Regardez d’ailleurs toute sa « timeline » pour avoir une idée du problème :

    http://twitter.com/kenji_rikitake

    En effet, Twitter ne permet pas d’étiqueter un tweet lorsqu’on est polyglotte. (Cela ne serait d’ailleurs pas forcément très pratique d’avoir à le faire à chaque tweet, avec les risques d’erreurs associés.) Peut-être pourrait-il déterminer automatiquement la langue utilisée (pas facile avec seulement 140 caractères pour décider entre danois et norvégien !) et ensuite fournir un moyen de filtrer (afficher uniquement les tweets en français et en anglais, pour ceux qui parlent ces deux langues).

    Revenons à #SeenThis_TODO. SeenThis détecte automatiquement la langue des liens qu’on enregistre et l’indique, ce qui permet de savoir avant de cliquer si on comprendra quelque chose ou pas. Mais, curieusement, il ne le fait pas pour les seens eux-même. Si un utilisateur écrit en deux langues, et que je n’en comprends qu’une, pas moyen de ne voir de son flux que ceux dans la « bonne » langue.

    #multilinguisme

    • Je suis bien d’accord, j’avais demandé cette feature à Twitter il y a longtemps — mais sans réponse. Détecter une langue n’est souvent pas si dur (OSX le fait nativement), et quand ça l’est c’est rarement grave. C’est aussi d’autant plus facile que l’utilisateur a indiqué quelles langues il parle.

    • Si : je détecte à la fois dans quelle langue est le message, dans quel langue sont les extraits cités, en plus de ce que tu signales (le texte distant des liens). Si tu regardes le code source d’un message, tu verras des attributs « lang » qui se promènent un peu partout.

      En revanche, je n’ai pas mis de filtre pour sélectionner ce qu’on comprends. Au niveau de l’ergonomie, ça n’est pas forcément évident. Par exemple : je dois voir uniquement les messages de Stéphane dans ma propre timeline s’il est dans la bonne langue ; mais si je vais sur sa page à lui, je pense qu’il faut que tout soit affiché, sinon je fais me faire une mauvaise idée. Par ailleurs, il y a plusieurs langues déjà dans un message message : texte et citations. Je fais le tri sur quoi (le texte ou la citation ou les deux) ?

      Et enfin, il me reste toujours la difficulté de mon système de cache : il m’est difficile avec ce système de « croiser » les critères.

      Bref, oui c’est bien une des idées (qui de plus rendrait visible la détection de langue qui est super-kikou), mais je ne trouve pas ça ultra-évident : ergonomique potentiellement bancale, et techniquement risque de perdre l’efficacité de mon système de cache.