Faut-il s’inquiéter des « hallucinations » des IA comme ChatGPT ou Gemini ?
▻https://www.lemonde.fr/pixels/article/2024/06/17/faut-il-s-inquieter-des-hallucinations-des-ia-comme-chatgpt-ou-gemini_624097
DécryptageLes réponses des intelligences artificielles génératives contiennent régulièrement des erreurs factuelles, voire de pures inventions. Quelle est l’ampleur du problème ? Et est-il possible de le surmonter, à l’heure où l’IA se répand dans les outils du quotidien ?
Vous pouvez partager un article en cliquant sur les icônes de partage en haut à droite de celui-ci.
La reproduction totale ou partielle d’un article, sans l’autorisation écrite et préalable du Monde, est strictement interdite.
Pour plus d’informations, consultez nos conditions générales de vente.
Pour toute demande d’autorisation, contactez syndication@lemonde.fr.
En tant qu’abonné, vous pouvez offrir jusqu’à cinq articles par mois à l’un de vos proches grâce à la fonctionnalité « Offrir un article ».
▻https://www.lemonde.fr/pixels/article/2024/06/17/faut-il-s-inquieter-des-hallucinations-des-ia-comme-chatgpt-ou-gemini_624097
Des erreurs ou des « hallucinations » donc, les IA génératives en font. Cela n’a pas pour autant dissuadé Google d’intégrer mi-mai sa propre IA, Gemini, à son moteur de recherche. La France n’est pas encore concernée mais, aux Etats-Unis, Google répond désormais à certaines questions par quelques paragraphes de texte générés par IA.
Lire aussi | Article réservé à nos abonnés L’arrivée de l’IA sur le moteur Google suscite des inquiétudes
La presse américaine a réagi avec une virulence rare, des dizaines d’articles chroniquant les bourdes spectaculaires commises par l’IA de Google. La MIT Technology Review, par exemple, cite une réponse étonnante obtenue par Margaret Mitchell, chercheuse en éthique de l’IA chez Hugging Face et anciennement employée par Google : Gemini lui a assuré que le président américain Andrew Johnson aurait passé plusieurs diplômes depuis 1947. Un exploit, pour un homme mort en 1875.
Beaux parleurs
Et ce n’est pas près de s’arrêter, jugent unanimement les spécialistes interrogés par Le Monde, qui considèrent même ces erreurs comme « inévitables ». La faute aux grands modèles de langage (ou LLM, pour Large Language Model), placés au cœur de ces systèmes de génération de textes. Ils ont appris à estimer les probabilités d’avoir une syllabe, un mot ou une séquence de mots en fonction de ceux qui précèdent. Ces probabilités dépendent des milliards de textes introduits lors de l’apprentissage. En particulier, « si cette phase ne contient pas certains sujets, les probabilités calculées vont être petites et conduire à un choix de mots ou de séquences erroné », précise Didier Schwab, professeur à l’université Grenoble-Alpes. Le système n’a aucune notion de justesse ou de vérité et ne peut savoir que ses réponses, considérées mathématiquement comme plausibles, seront sans doute fausses, inventées ou déformées.
L’enjeu de la qualité des sources
D’autres erreurs imputées à l’IA ne sont pas vraiment de son fait. Quand Gemini conseille d’ajouter de la colle dans une pizza pour éviter que le fromage ne coule, il faut plutôt mettre en cause le moteur de recherche de Google, avec lequel Gemini travaille en tandem – un compagnonnage de plus en plus courant pour les IA. C’est ce moteur qui a déniché une page Internet sur laquelle un internaute, sur le ton de la plaisanterie, donnait ce conseil en 2013. « L’erreur est souvent attribuée par erreur à l’IA car c’est la partie visible du système », note Philippe Laban, chercheur en IA chez Salesforce.
Or les résultats de recherche Google sont composés de liens de qualité variable depuis leur naissance. Dès son lancement en 2016, selon les tests du Monde, l’assistant « OK Google » distillait aussi une quantité astronomique d’informations erronées. On trouve également régulièrement des bévues dans les résumés qui apparaissent en haut des résultats de Google, dont les errements sont « impossibles à corriger complètement », admet elle-même l’entreprise.
Des pistes d’amélioration
Quoi qu’il en soit, la communauté scientifique rivalise d’ingéniosité pour lutter contre les « hallucinations ». Il faut d’abord les quantifier au mieux. « Vérifier que les modèles n’“hallucinent” pas correspond pour nous, chercheurs, à évaluer leur qualité selon des critères que l’on définit en fonction de la tâche, et à les évaluer sur des exemples annotés par les humains », indique Chloé Clavel, chercheuse à l’Institut national de recherche en informatique et en automatique, qui a notamment développé des systèmes de détection d’arguments fallacieux dans des conversations ou de génération de résumé fiable.
Il faut ensuite parvenir à les contrer. Et pour cela, des dizaines de techniques sont déjà recensées. D’abord, la possibilité de réentraîner un modèle sur des données de plus grande qualité ou à jour, mais cela est coûteux en temps de calcul. Le « prompt » ou l’« amorce » – le texte introduit par l’utilisateur pour obtenir une réponse – peut aussi être automatiquement rallongé et détaillé pour aider l’outil à chercher dans le bon contexte et ainsi limiter les risques de dérapage.
Une autre technique très à la mode, le « RAG » (retrieval-augmented generation, ou « génération augmentée par extraction »), se répand. Elle consiste à identifier les documents, préalablement sélectionnés, les plus proches de la question. Puis un « prompt » invisible, tenant compte de ce contexte précis, est envoyé à la machine pour qu’elle fournisse une réponse, qui sera a priori moins sujette aux inventions. « Cela permet d’afficher avec la réponse la source des documents dont elle est issue », ajoute Laurent Daudet. Son entreprise, LightOn, a fourni un tel service pour fouiller la documentation informatique du conseil régional d’Ile-de-France.
Autre méthode pour limiter les erreurs : découper la tâche en plusieurs sous-questions, ce qui s’appelle la « chaîne de pensées ». « Demander de résumer un long document de but en blanc ne marche pas, remarque Laurent Daudet. Mais on peut demander d’abord des idées-clés, résumer des parties… puis assembler les éléments pour faire le résumé. »
Reste un chantier : aider les internautes à contrôler les réponses fournies par les IA. Car ces dernières ne précisent pas toutes l’endroit où elles puisent leurs informations en fournissant un lien. Et quand elles le font, ceux-ci sont parfois erronés. Pour Marie Pellat, ingénieure de recherche pour l’entreprise française Mistral AI, les éditeurs d’IA devront « imaginer des interfaces qui permettent de vérifier l’info rapidement ». Google a commencé à faire un pas dans ce sens. Dans son application Android Gemini, un discret bouton « G » permet désormais de voir les informations les moins fiables d’une réponse surlignées en rose, et les plus fiables surlignées en vert. Cliquer dessus fait alors apparaître un lien Web.
Une avancée qui laisse Dirk Lewandowski circonspect : « Je ne crois pas que les usagers des moteurs de recherche vérifieront ces infos. Ils n’aiment pas faire d’efforts, et ça n’a pas progressé depuis vingt-cinq ans. »
#Intelligence_artificielle #Hallucinations #Remèdes