Je viens d’installer sur #spip-zone un autre #plugin #SPIP tiré du code de #Seenthis :
►http://zone.spip.org/trac/spip-zone/browser/_plugins_/plugins_seenthis/detecter_langue
Il fournit la fonction detecter_langue($texte), qui répond avec le code de la langue dans laquelle est rédigé le $texte.
L’originalité, ici, est d’avoir deux passes :
– d’abord voir dans quel alphabet le texte est rédigé majoritairement (latin, cyrillique, grec, arabe, hébreu...) ; cela permet de limiter le nombre de langues possibles ;
– ensuite une classique analyse par tri-grams, limitée aux langues déterminées par la passe précédente.
#GPL