#bullshit_detector

Philippe De Jonckheere CC BY 4/09/2019

A Twitter employee asked why their employer won’t ban neo Nazi tweets like they banned ISIS tweets.
The answer is that if you teach an AI to ban Nazis, it bans a lot of Republicans.

▻https://www.yahoo.com/entertainment/twitter-won-t-autoban-neo-193850606.html?guccounter=1&guce_referrer=aHR0cHM6L

Philippe De Jonckheere CC BY

ARNO* @arno ART LIBRE 4/09/2019

C’est assez rigolo, mais en même temps, il y a cette phrase qui suggère que le filtrage par AI par particulièrement approximatif :
With every sort of content filter, there is a tradeoff, [the executive] explained. When a platform aggressively enforces against ISIS content, for instance, it can also flag innocent accounts as well, such as Arabic language broadcasters.
Si « Arabic language broadcasters » te classe dans la censure automatique anti-ISIS – mais « la société est prête à l’accepter » (quelle société, si ce n’est la société islamophobe et raciste du shithole country ?) –, le fait que des républicains soient confondus avec des néo-nazis ne m’apparaît plus si défendable (même si, bon quand même…).

ARNO* @arno ART LIBRE
Simplicissimus @simplicissimus 4/09/2019

Ce qui est vraiment consternant c’est que ce type de raisonnement est à la base des logiques de détection algorithmique que ça s’appelle IA, statistiques ou toute autre méthode qu’on voudra bien utiliser. Toute méthode produit des #erreurs (de 1ère espèce, faux positifs ou de 2nde espèce, faux négatifs) et, à l’usage, et on l’évalue en fonction de l’occurrence de la prévalence de l’élément que l’on cherche à détecter dans la population (resp. % de terroristes dans la population d’arabophones, % de néo-nazis chez les républicains).
Pour une intro de base, voire #Sensibilité et #Spécificité chez WP
▻https://fr.wikipedia.org/wiki/Sensibilité_et_spécificité
ou encore #courbe_ROC, #AUC, …
▻https://fr.wikipedia.org/wiki/Courbe_ROC
Après ces bases statistiques – toujours remarquablement absentes dès qu’on parle d’étendre un dispositif de surveillance/détection – mais après seulement, on peut parler en terme de coût (financier ou social) des erreurs des deux types. Et donc, ce que dit @arno, ce qui est socialement acceptable :
• vu la prévalence de l’islamo-terroriste et quels que soient les performances des détecteurs, on est pratiquement assuré que (presque) tous les positifs seront des faux positifs (et on s’en fout…)
• pour les néo-nazis, on risque surtout de buter sur l’endroit où on met la limite (et il n’est même pas avéré que les faux positifs soient fâchés de l’erreur de classification…)

Simplicissimus @simplicissimus
Philippe De Jonckheere @philippe_de_jonckheere CC BY 4/09/2019

@arno @simplicissimus Je dois être bouché à l’émeri, je comprends super mal vos deux raisonnements, mais tellement super mal que pour celui de @simplicissimus j’ai cherché le bouton « traduire ». C’est moi où les choses peuvent être dites avec clarté. J’ai vraiment essayé.

Philippe De Jonckheere @philippe_de_jonckheere CC BY
ARNO* @arno ART LIBRE 4/09/2019

L’attrait de l’article, c’est l’idée que d’« après Twitter », s’ils censurent automatiquement les contenus néo-nazis, ils vont se retrouver à censurer des élus républicains (« faux positifs »), et ça nous fait à tous un peu plaisir de penser que ça confirme que les élus républicains ne sont pas bien loins des néo-nazis white-power. Si on résume cette logique : « la censure par l’AI de Twitter confirme que les républicains sont des fachos ».
Le problème, c’est que le même article signale que quand ils filtrent avec la même AI les contenus pro-ISIS, ça met dans le tas des contenus totalement innocents au motif que le simple fait de parler en arabe est un marqueur fort pour l’AI (faux positifs donc aussi).
Donc l’intérêt – a priori assez plaisant – de l’article, comme quoi les « erreurs » de l’AI de Twitter démontreraient ce qu’on pense déjà, c’est-à-dire que les républicains sont des fascistes, hé ben ça ne tient pas (sinon on accepte l’idée que les gens qui s’expriment en arabe sont pro-ISIS, puisque c’est ce que fait la même AI).

ARNO* @arno ART LIBRE
Simplicissimus @simplicissimus 4/09/2019

merci @arno, je vais te sous-traiter les réécritures de mes écrits « technique »…
Les mots sont «  techniques  », mais le principe est assez simple. Un «  classificateur binaire  » auquel fait référence WP, ça veut juste dire qu’on trie une population en 2 tas ; pour faire simple des «  méchants  » et des «  gentils  ». Ça marche pour plein de trucs : un œuf pourri dans la production d’un poulailler, un monsieur avec du plastic dans ses semelles parmi les passagers embarquant à Roissy, un «  pas gentil  » parmi les trombines des passants dans une rue, etc.
Toute méthode, automatisée ou pas, appliquée systématiquement produira des erreurs ; erreurs de DEUX types :
• un «  gentil  » pris pour un «  méchant  » (faux positif)
• un «  méchant  » pris pour un «  gentil  » (faux négatif)
et donc sera associée à DEUX risques, le risque des erreurs de la première espèce ET le risque des erreurs de la seconde espèce (au passage, ce sont les termes techniques).
Dans la plupart des méthodes, tu disposes (d’au moins) un paramètre qui te permet d’arbitrer entre ces deux risques. Ainsi, si tu ne veux pas avoir de faux positif, il suffit de décider que tout le monde est gentil ; le hic c’est que ta méthode n’interceptera plus aucun méchant. Et tu peux échanger entre les deux risques.
Typiquement, dans les exemples statistiques qui vont bien (en contrôle qualité, p. ex.) on considère des risques d’erreur de l’ordre de 5% à 10%. Prenons, p. ex. 5% pour le premier et 10% pour le second) au passage, dans la plupart des méthodes de surveillance, on en est très loin. Ainsi dans cet exemple pointé récemment, ▻https://seenthis.net/messages/799826, on trouve 19% des individus identifiés correctement ; on ne sait pas très bien à quoi ça correspond par rapport aux risques ci-dessus, mais on voit que 81% (le complément à 100%) des individus ne sont pas correctement reconnus.
Gardons 5% et 10%. Le dernier paramètre important pour modéliser le fonctionnement du système de surveillance, c’est le pourcentage a priori de «  méchants  » dans la population totale. Avec ça, tu vas pouvoir calculer combien, en moyenne, ton système produit d’erreurs et de quels types. Je prends par exemple, les passagers transitant à Roissy tous les jours, ça nous en fait environ 200 000, on peut raisonner «  en moyenne  ».
Si tu as en gros 30% de méchants dans la population, tu en vois passer 60 000 dont tu laisseras passer 10% (2ère espèce) de faux négatifs (6000) et dont tu arrêteras le reste, soit 54 000.
Sur les 140 000 gentils (les pas méchants, si tu préfères) 5% (1ère espèce) seront arrêtés, soit 7 000 et 133 000 passeront sans encombre.
Bilan : tous les jours tu interceptes 61 000 personnes dont 54 000 à juste titre et 7 000 par erreur. C’est encore admissible…
Mais 30% de méchants, c’est ÉNORME. Mettons en 1% (et c’est encore gigantesque) et refaisons les calculs.
2 000 méchants par jour, dont 200 passent au travers du filet et 1800 sont arrêtés
198 000 gentils dont 9900 sont arrêtés à tort.
Bilan : tu as arrêté 10 100 personnes dont 200 vrais méchants. De ce fait, outre le bazar que tu mets à l’embarquement, (pratiquement) toutes les personnes retenues le sont à tort, résultat, très vite, on ne s’occupera plus des alarmes.
Conclusion, très générale : quand ce que tu cherches est très peu fréquent dans la population, les méthodes de contrôle systématiques en population générale (càd appliquées à tout le monde) ne peuvent pas marcher. Toute personne affirmant le contraire est au mieux un ignare au pire un escroc manipulant les ignares. Ce qui marche (éventuellement) ce sont des méthodes spécifiques (par exemple un indic – on a aussi un exemple tout frais) appliquées sur des populations ciblées (càd où, a priori, le taux de méchants est plus élevé qu’en population générale). La seule justification (?) d’un contrôle systématique de disposer d’une gigantesque base de données qui te permet, quand tu connais le méchant de pouvoir le retrouver dans ta base).
OK, si tu souffres d’aritmophobie tu auras décroché très rapidement, mais la logique de ce type de calcul est assez simple et imparable, même si c’est un peu long à développer (ce qui fait que ça ne l’est rigoureusement jamais…)
PS : je sais que j’ai déjà développé ce genre de choses (au moins…) une fois ici.

Simplicissimus @simplicissimus
Philippe De Jonckheere @philippe_de_jonckheere CC BY 4/09/2019

@arno , @simplicissimus Comme je suis super content d’avoir osé dire (après une longue hésitation) que j’avais rien capté, parce que maintenant j’ai compris et je trouve cela vraiment très intéressant, je regrette même de ne l’apprendre que maintenant tant ce raisonnement des faux positifs et des faux négatifs m’aurait été tellement utile quand je travaillais dans l’informatique et que je me battais contre les avalanches de fausses alertes en tentant de faire remonter qu’elles étaient factrices de vraies alertes manquées.
Avouez que vous êtes l’un et l’autre nettement plus clairs dans vos deuxièmes contributions dont je vous remercie tous les deux.
Mais ça continue de me faire sourire qu’on confonde les Républicains avec des Nazis. Parce que c’est la même chose non ?

Philippe De Jonckheere @philippe_de_jonckheere CC BY
ARNO* @arno ART LIBRE 5/09/2019

Diala a un geste, apparemment libanais, pour qualifier ma façon d’expliquer les choses : ça consiste à se boucher l’oreille gauche avec la main droite en faisant tout le tour de la tête.

ARNO* @arno ART LIBRE
Philippe De Jonckheere @philippe_de_jonckheere CC BY 5/09/2019

Une amie proche de la famille avait un jour statué sur le fait que pour mes enfants la vraie punition c’était la longueur de l’explication. Ça nous avait beaucoup fait rire et cela avait été l’occasion d’une sérieuse remise en question paternelle, depuis quand je dois expliquer quelque chose à mes enfants on négocie avant l’explication le temps qui m’est imparti et on se sert d’un compte-minute.
▻http://desordre.net/photographie/numerique/divers/videos/20181014_pendule.mp4

Philippe De Jonckheere @philippe_de_jonckheere CC BY
Vanderling @vanderling 6/09/2019

en allant sur twittoland n’oublie pas ton bullshit detector @philippe_de_jonckheere
https://66.media.tumblr.com/6aafd2bcc73d6a7869b1131b9b5ad086/tumblr_pwwyf9z6Ga1tq5z8wo1_400.gifv

sur tumblr aussi d’ailleurs, mais je tombe dedans comme une mouche
dans le vinaigre.
#bullshit_detector

Vanderling @vanderling

Écrire un commentaire