merci @arno, je vais te sous-traiter les réécritures de mes écrits « technique »…
Les mots sont « techniques », mais le principe est assez simple. Un « classificateur binaire » auquel fait référence WP, ça veut juste dire qu’on trie une population en 2 tas ; pour faire simple des « méchants » et des « gentils ». Ça marche pour plein de trucs : un œuf pourri dans la production d’un poulailler, un monsieur avec du plastic dans ses semelles parmi les passagers embarquant à Roissy, un « pas gentil » parmi les trombines des passants dans une rue, etc.
Toute méthode, automatisée ou pas, appliquée systématiquement produira des erreurs ; erreurs de DEUX types :
• un « gentil » pris pour un « méchant » (faux positif)
• un « méchant » pris pour un « gentil » (faux négatif)
et donc sera associée à DEUX risques, le risque des erreurs de la première espèce ET le risque des erreurs de la seconde espèce (au passage, ce sont les termes techniques).
Dans la plupart des méthodes, tu disposes (d’au moins) un paramètre qui te permet d’arbitrer entre ces deux risques. Ainsi, si tu ne veux pas avoir de faux positif, il suffit de décider que tout le monde est gentil ; le hic c’est que ta méthode n’interceptera plus aucun méchant. Et tu peux échanger entre les deux risques.
Typiquement, dans les exemples statistiques qui vont bien (en contrôle qualité, p. ex.) on considère des risques d’erreur de l’ordre de 5% à 10%. Prenons, p. ex. 5% pour le premier et 10% pour le second) au passage, dans la plupart des méthodes de surveillance, on en est très loin. Ainsi dans cet exemple pointé récemment, ▻https://seenthis.net/messages/799826, on trouve 19% des individus identifiés correctement ; on ne sait pas très bien à quoi ça correspond par rapport aux risques ci-dessus, mais on voit que 81% (le complément à 100%) des individus ne sont pas correctement reconnus.
Gardons 5% et 10%. Le dernier paramètre important pour modéliser le fonctionnement du système de surveillance, c’est le pourcentage a priori de « méchants » dans la population totale. Avec ça, tu vas pouvoir calculer combien, en moyenne, ton système produit d’erreurs et de quels types. Je prends par exemple, les passagers transitant à Roissy tous les jours, ça nous en fait environ 200 000, on peut raisonner « en moyenne ».
Si tu as en gros 30% de méchants dans la population, tu en vois passer 60 000 dont tu laisseras passer 10% (2ère espèce) de faux négatifs (6000) et dont tu arrêteras le reste, soit 54 000.
Sur les 140 000 gentils (les pas méchants, si tu préfères) 5% (1ère espèce) seront arrêtés, soit 7 000 et 133 000 passeront sans encombre.
Bilan : tous les jours tu interceptes 61 000 personnes dont 54 000 à juste titre et 7 000 par erreur. C’est encore admissible…
Mais 30% de méchants, c’est ÉNORME. Mettons en 1% (et c’est encore gigantesque) et refaisons les calculs.
2 000 méchants par jour, dont 200 passent au travers du filet et 1800 sont arrêtés
198 000 gentils dont 9900 sont arrêtés à tort.
Bilan : tu as arrêté 10 100 personnes dont 200 vrais méchants. De ce fait, outre le bazar que tu mets à l’embarquement, (pratiquement) toutes les personnes retenues le sont à tort, résultat, très vite, on ne s’occupera plus des alarmes.
Conclusion, très générale : quand ce que tu cherches est très peu fréquent dans la population, les méthodes de contrôle systématiques en population générale (càd appliquées à tout le monde) ne peuvent pas marcher. Toute personne affirmant le contraire est au mieux un ignare au pire un escroc manipulant les ignares. Ce qui marche (éventuellement) ce sont des méthodes spécifiques (par exemple un indic – on a aussi un exemple tout frais) appliquées sur des populations ciblées (càd où, a priori, le taux de méchants est plus élevé qu’en population générale). La seule justification (?) d’un contrôle systématique de disposer d’une gigantesque base de données qui te permet, quand tu connais le méchant de pouvoir le retrouver dans ta base).
OK, si tu souffres d’aritmophobie tu auras décroché très rapidement, mais la logique de ce type de calcul est assez simple et imparable, même si c’est un peu long à développer (ce qui fait que ça ne l’est rigoureusement jamais…)
PS : je sais que j’ai déjà développé ce genre de choses (au moins…) une fois ici.