ARNO*

Geek dilettante habitant une belle et grande propriété sur la Côte d’améthyste

  • #seenthis_fonctionnalités Les outils de langue

    Une caractéristique très originale de Seenthis est d’avoir un système de détection de la langue, qui permet au système de déterminer automatiquement dans quelle langue est un message, et dans quelle(s) langue(s) sont les extraits cités dans le message. Et ça détecte même quelle est la langue de la page Web référencée pour chaque lien hypertexte.

    Intellectuellement, je trouve ça trop de la balle. :-))

    En pratique, pour l’usager, ça donne quelques outils :

    – le premier, à la fois très visible mais généralement imperceptible : on applique les corrections typographiques de SPIP (guillemets automatiques, espaces insécables…) selon la langue ; ce qui fait qu’on a un respect automatique des « bonnes » règles typographiques…

    – puisqu’on détecte la langue, on a aussi un affichage adapté (et automatique) des langues qui s’écrivent de droite à gauche (arabe, farsi, hébreu).

    – le détail mignon : ça indique la langue de la page de destination des liens hyper texte ; si ça vous dit que la page référencée est en Chinois, c’est pas forcément la peine de suivre le lien…

    – traduction automatique des extraits cités dans les messages. Alors là c’est un peu compliqué : le système connaît la langue d’affichage des utilisateurs identifiés (c’est dans les préférences), et sinon adopte pour l’interface la langue réglée par défaut dans le navigateur des visiteurs non identifiés. Du coup, l’outil compare la langue d’affichage du visiteur avec la langue de chaque citation, et si elles sont différentes, propose un bouton pour afficher la traduction automatique.

    (a) c’est volontairement limité aux citations, parce que l’idée n’est pas qu’on fasse un réseau social où des gens qui parlent des langues différentes qu’ils ne comprennent pas pourquoi discuter, mais simplement de donner accès au sens des citations dans des langues étrangères ;

    (b) c’est Google Translate qui tourne, et ça a fait beaucoup de progrès. Les langues européennes, ça fonctionne très bien. Et si au début l’arabe était du pur charabia, ça s’est beaucoup amélioré. La difficulté, ici, c’est d’accepter que le but n’est pas remplacer un vrai traducteur, mais de donner accès à des citations qui seraient de toute façon totalement inaccessibles. @gonzo référence des choses en arabe, et hop on peut vérifier en gros de quoi ça parle ; @klaus cite en Allemand, c’est bien pratique ce bouton…

    – et donc, comme indiqué ci-dessus : on a l’interface générale du système qui se traduit dynamiquement en différentes langues.

    • Mon commentaire. Depuis, les gros réseaux ont tous ajouté des boutons de traduction automatique, alors c’est moins original. Et en même temps, c’est peut-être l’aspect le plus anecdotique de la reconnaissance de langue. Quand c’est en panne, c’est pas super-grave.

      Un aspect difficile et qui beugue parfois, c’est le titre des articles, quand ils sont dans une langue différente du commentaire. Autant les citations sont bien identifiées indépendamment, autant tout le reste du message est traité comme une même langue, et donc si on commence en français un article avec un titre en arabe (ce que fait par exemple @gonzo), ça déconne un peu.

      Le truc qui me botte bien, c’est à nouveau la typographie automatique de SPIP appliquée selon les règles de la bonne langue.

    • @ARNO* Je me régale tout en n’y comprenant pas grand chose ! Une question : la bonne pratique, ce serait quoi ? Je mets systématiquement une citation avant de commenter en français ? Un truc de ce genre ? Je peux aussi me lancer dans le nord-coréen :-)

    • @gonzo : il n’y a pas vraiment de solution pour l’instant, parce que le titre de l’article (en arabe par exemple) est utilisé comme le commentaire (en français, disons) pour identifier la langue du billet. Du coup, forcément, c’est un mélange français/arabe et l’outil penchera pour l’un ou pour l’autre selon les cas.

      La question ne se pose pas avec les extraits en citation, parce qu’ils sont calculés à part, l’outil s’en sort donc particulièrement bien avec les commentaires en français avec des extraits en arabe dedans, ça pas de problème.

      Une « solution » serait peut-être de ne pas mettre le titre de l’article en arabe directement au premier niveau (avec ton commentaire en français), mais de le mettre en début de citation (en gras pour le faire ressortir, pourquoi pas). C’est pas génial, mais ça résoudrait la difficulté « technique »…

      En fait une autre difficulté spécifique à tes messages, c’est que tu commences généralement tes messages par le titre en arabe de l’article d’origine. Et du coup, quand ça passe automatiquement dans Twitter, c’est ce titre en arabe qui est balancé, alors que ce sont des comptes destinés largement à un public francophone qui s’intéresse au monde arabe. Du coup, là encore, commencer par le petit résumé et mettre le titre en arabe dans la citation, ça aiderait encore pour cet aspect.