• Pourquoi détecter un texte de ChatGPT est-il si dur ? - Numerama
    https://www.numerama.com/tech/1252886-pourquoi-detecter-un-texte-ecrit-par-chatgpt-est-il-si-dur.html

    […]
    Des outils qui ne marchent pas encore complètement
    Ces aides sont encore loin d’être convaincantes. « GPTZero marche bien en anglais, mais pas trop en français », nous indique Giada Pistilli, éthicienne pour l’entreprise spécialisée dans l’apprentissage automatique et l’IA Hugging Face. La même conclusion s’applique pour les textes écrits par IA, mais modifiés à postériori par un humain. « Il ne détecte pas tout, ce n’est pas un outil toujours performant. D’ailleurs, GPTZero dit que ses résultats sont probables, pas qu’ils sont sûrs ».

    Même chose pour les deux autres outils : les résultats sont plutôt bons en anglais, mais manquent de précision pour les autres langues. DetectGPT n’a pas reconnu notre article écrit par ChatGPT, et AI Text Classifier a, à l’inverse, cru qu’un texte écrit par mes soins avait « probablement » été écrit par une intelligence artificielle.

    Pourtant, ils utilisent tous une méthode de détection différente : GPTZero analyserait la « perplexité » d’un texte (la variable de « hasard » détectée dans un texte), DetectGPT utilise la « courbure locale de la fonction de probabilité logarithmique du modèle », et AI Text Classifier utilise une intelligence artificielle, elle-même entraînée pour déterminer si un texte était écrit par une IA. Peu importe la méthodologie, il n’existe donc pas pour l’instant de solution infaillible.

    Le développement d’un watermark pour les IA
    Une autre piste est actuellement étudiée pour permettre une authentification fiable dans le futur : l’implantation d’un « watermark » dans les textes. Ce filigrane fonctionnerait en « insérant des tokens de manière aléatoire dans les textes écrits par IA », souligne Giada Pistilli.

    • La technique du watermark a été décrite dans un papier de recherche en intelligence artificielle, et plusieurs entreprises pourraient être intéressées par la méthode.

      A Watermark for Large Language Models
      https://arxiv.org/pdf/2301.10226.pdf

      Abstract
      Potential harms of large language models can be mitigated by watermarking model output, i.e., embedding signals into generated text that are invisible to humans but algorithmi- cally detectable from a short span of tokens. We propose a watermarking framework for proprietary language models. The watermark can be embedded with negligible impact on text quality, and can be detected using an efficient open- source algorithm without access to the language model API or parameters. The watermark works by selecting a random- ized set of “green” tokens before a word is generated, and then softly promoting use of green tokens during sampling. We propose a statistical test for detecting the watermark with interpretable p-values, and derive an information- theoretic framework for analyzing the sensitivity of the watermark. We test the watermark using a multi-billion parameter model from the Open Pretrained Transformer (OPT) family, and discuss robustness and security.

    • Donc ça consiste en ce que toute production de texte humaine, sorte avec une sorte de déformation visuelle. Ca interdit les textes numériques, un peu... ?
      Il y avait ici un article (pas retrouvé) où les glyfs étaient légèrement modifiés (gras, pente, pointes...) peu visible à l’oeil, un algo pouvait en extraire l’info. Ca marchait par blocs de X lettres.

    • De ce que j’ai compris, ça consiste à « colorer » virtuellement une partie du vocabulaire utilisé et faire en sorte que l’IA, qui doit dont être modifiée en ce sens, surreprésente délibérément la partie colorée. Le rédacteur humain, ignorant la coloration, la part du vocabulaire coloré dans son texte sera aléatoire. Pour un document produit - et connaissant le vocabulaire coloré - on peut alors facilement tester si son occurrence est normale ou surreprésentée.