LSI = latent semantic indexing
Il s’agit d’appliquer des calculs statistiques sur les mots employés dans chaque article, pour faire surgir des « thèmes » (ou topics). Ces topics formeront les n dimensions d’un espace où l’on pourra « projeter » chaque texte, sous forme d’un point.
Par exemple si notre corpus de texte comporte des textes sur le cinéma et les migrants, et qu’on choisit n=2, les topics seront « 1) film écran scénario » et « 2) frontière passeport police » ; enfin c’est l’idée, et justement le but de ces algorithmes est de trouver des topics pertinents.
Un article est représenté par un point dans cet espace, avec des coordonnées du type (1,0) ; (0.5,0.5) : le premier parle exclusivement de cinéma, le second parle un peu de cinéma et un peu de migrants.
On applique ensuite diverses méthodes selon la question qui nous intéresse, par exemple :
– quels sont les articles proches de telle phrase ? => moteur de recherche
– peut-on former des groupements d’articles ? => clustering
– prendre un article en anglais, le passer dans google translate, chercher quelque chose qui ressemble au tas de mots récupérés => recherche de l’article source d’une traduction.
Voilà c’est ça l’idée de base, et #gensim est un outil génial pour traiter des corpus de textes, et leur appliquer ce type d’algorithmes. Mais il ne fait pas le café et c’est à nous de voir comment on peut l’utiliser et pour faire quoi.