Alors que la contestation monte (voir ici, ici, ici ou ici) concernant son algorithme de notation des allocataires à des fins de #contrôle_social, la CAF choisit de se réfugier dans l’opacité tout en adaptant, maladroitement, sa politique de communication. Suite à son refus de communiquer le code source de son algorithme, nous avons saisi la Commission d’Accès aux Documents Administratifs (CADA).
Comme nous l’expliquions ici, la CAF utilise depuis 2012 un algorithme de #profilage attribuant à chaque allocataire une note ou « #score_de_risque ». Construite à partir des centaines de données dont la CAF dispose sur chaque allocataire, cette note est ensuite utilisée pour sélectionner celles et ceux qui seront contrôlé·es.
Cet algorithme symbolise l’étendue des #dérives de l’utilisation des outils numériques au service de politiques de contrôle social portées par des logiques policières de suspicion généralisée, de #tri et d’#évaluation continue de chacun de nos faits et gestes.
Ici, comme c’est généralement le cas par ailleurs, ce tri cible les plus précaires. Les rares informations disponibles à ce sujet laissent apparaître que parmi les critères dégradant la note d’un·e allocataire, et augmentant ses chances d’être contrôlé·e, on trouve pêle-mêle : le fait de disposer de faibles revenus, d’habiter dans un quartier défavorisé, d’être une mère célibataire ou encore d’être né·e hors de France.
Pour en avoir le coeur net, nous avons donc demandé à la CAF de nous communiquer le #code source de son algorithme1. Et sa réponse est affligeante2.
Sortir de la précarité pour “tromper l’algorithme”
Si la CAF a bien accepté de nous communiquer le code de l’algorithme… ce n’est qu’après avoir masqué la quasi-totalité des noms des variables comme on peut le voir sur l’illustration de cet article, qui est une photo de ce que la CAF nous a répondu.
En d’autres termes, le fichier fourni nous permet simplement d’apprendre combien de #critères sont utilisés pour le calcul de la note des allocataires. Rien de plus. Ce qui n’empêche pas la CAF de préciser dans son courrier qu’elle espère que sa communication nous « permettra de comprendre le modèle »3.
Les responsables de la CAF ont toutefois tenu à justifier le caviardage du fichier. Ces dernier·es précisent que le #code_source a été « expurgé des mentions qui, si elles étaient communiquées, pourraient donner des indications aux fraudeurs pour tromper l’algorithme »4. Et pour être tout à fait honnête, nous n’étions pas préparé·es à cette réponse.
La CAF croit-elle vraiment que les critères liés à la #précarité (situation professionnelle instable, faibles revenus, logement situé dans un quartier défavorisé…) pourraient être modifiés par la seule volonté de l’allocataire ? Qu’afin d’augmenter leur note et de « flouer » l’algorithme, des millions d’allocataires pourraient décider, d’un coup, de sortir de la pauvreté ?
Ce raisonnement frise l’#absurdité. A vrai dire, il est méprisant et insultant pour celles et ceux vivant des situations difficiles.
Pire, le secrétaire général de la CAF entretient publiquement la confusion entre #fraudes et #erreurs de déclarations involontaires, prenant ainsi le risque de stigmatiser les personnes ciblées par l’algorithme, et ce, dans le seul but de justifier l’opacité de son institution.
En réponse à un journaliste de Radio France5 l’interrogeant sur la réponse de la CAF à notre demande, il l’expliquait en disant qu’« il y a un certain nombre de données dont on pense que, si elles sont connues, peuvent nourrir des stratégies de contournement de personnes dont le but c’est de frauder le système ». Et d’ajouter : « Il faut que l’on ait un coup d’avance ».
Faut-il donc lui rappeler que l’algorithme de la CAF n’est pas entraîné à détecter les fraudes mais les erreurs de déclaration, par définition involontaires6. Et que sa réponse pourrait donc être reformulée ainsi : « Nous ne communiquerons pas le code de l’algorithme de peur que les allocataires arrêtent de faire des erreurs ».
De notre point de vue, cette réponse révèle l’ampleur de l’embarras des responsables de la CAF vis-à-vis de leur algorithme. Ils et elles ont peut-être en tête le scandale entourant un algorithme, en tout point similaire, de notation des allocataires ayant été utilisé aux Pays-Bas et dont les suites ont amené à la démission du gouvernement7 ?
#Déni_de_justice
Pire, cette opacité est aussi appliquée, à l’échelle individuelle, aux allocataires ayant été séléctionné·es par l’algorithme pour être controlé·es et qui chercheraient à obtenir des informations sur la raison de ce contrôle. Et ce, alors même que la loi prévoit que tout individu ayant fait l’objet d’une décision prise sur le fondement d’un traitement algorithmique (ici le fait d’être contrôlé) a le droit de connaître les données utilisées ainsi que les #paramètres de cet algorithme8. Ce qui signifie que les personnes ayant fait l’objet d’un contrôle9 sont censées avoir un droit d’accès plus étendu qu’une association comme la Quadrature.
Nous avons pu consulter la réponse à la demande d’informations réalisée par une personne ayant été contrôlée sur la base de sa note. Le courrier, signé par le délégué à la protection des données de la CNAF, se contente de renvoyer l’allocataire à la page “Internet et Libertés” de la CAF.
Sur cette page sont présents deux documents relatifs à l’algorithme de notation : un communiqué de la CAF et l’avis de la CNIL associé10. Aucun ne fournit d’informations sur les paramètres utilisés par l’algorithme, ni sur leur impact sur le score de risque.
Cette réponse est un déni de justice pour celles et ceux ayant fait l’objet d’un contrôle déclenché algorithmiquement, l’opacité entretenue par la CAF les empếchant de contester juridiquement le bien-fondé du contrôle dont ielles ont fait l’objet.
La discrimination : un savoir-faire à protéger
Nous avions aussi demandé la liste des variables utilisées pour l’entraînement du modèle, c’est à dire sa phase de création. Cette question est importante car elle permet de comprendre l’étendue des données utilisées par l’algorithme. Et donc le degré d’intrusion dans la vie privée des allocataires que la construction d’un tel modèle nécessite.
En effet, en mettant régulièrement en avant dans sa communication que son algorithme n’utilise « que » quelques dizaines de variables11, la CAF fait mine d’ignorer qu’elles sont le fruit d’une sélection qui nécessite l’analyse d’un nombre bien plus grand de variables au préalable12.
Et la justification apportée par les responsables de la CAF est, là aussi, déconcertante. Ces dernier·es avancent que la communication de ces variables n’est pas possible car elles constituent un « savoir-faire »13. La CAF souhaiterait-elle monétiser son algorithme et le revendre à d’autres administrations ? Penserait-elle pouvoir équiper les équipes de contrôleurs.ses des institutions sociales du monde entier de son algorithme assimilant les plus précaires à de potentiel·le·s fraudeurs ou fraudeuses ?
A défaut de réponse, nous nous en remettons à ce que, techniquement, tout·e data-scientist ferait pour entraîner un modèle le plus « précis » possible. Il suffirait de partir de l’intégralité des variables à sa disposition et, par itérations successives, décider lesquelles garder pour le modèle final. Dans cette hypothèse, ce serait alors la quasi-totalité des variables détenues par la CAF sur chaque allocataire qui serait utilisée pour l’entraînement de son modèle.
Ceci serait cohérent avec un document publié en 2013 dans lequel un statisticien de la CAF que « les statisticiens chargés de la modélisation disposaient d’environ un millier d’informations par allocataire contrôlé » et que « la base d’apprentissage contient toutes les données habituelles des fichiers statistiques »14.
Vingt ans de développement… et aucun compte-rendu de réunions
Quant à notre demande relative aux documents internes (notes, comptes-rendus, échanges…) concernant le développement de l’algorithme, la CAF nous a tout simplement répondu qu’en presque 20 ans de travail aucune réunion technique n’a fait l’objet de compte-rendu…15
Pour être tout à fait honnête, c’est une première dans l’histoire de nos demandes CADA.
Le retour de l’alibi technique
A ceci s’ajoute, depuis le début de l’année, la mise en place de ce qui apparaît comme une véritable communication de crise par l’institution autour de son algorithme. En juin 2022, la CAF a notamment publié un communiqué intitulé « Contrôle et datamining » dans lequel elle tente de répondre aux critiques soulevées par son algorithme16.
A sa lecture, on prend toute la mesure du rôle d’alibi technique à une politique de contrôle discriminatoire que joue l’algorithme, ce que nous dénoncions déjà ici.
L’algorithme y est décrit comme étant un objet purement scientifique dont le caractère politique est nié. Il est ainsi expliqué que la note des allocataires est le fruit d’une « démarche scientifique d’étude statistique […] menée par des experts » se fondant sur des critères « scientifiquement pondérés » ayant été sélectionnés « sur seuls critères statistiques ». Le secrétaire général de la CAF ajoute17 de son côté que cet outil serait un « miroir des situations statistiques » servant à identifier des « environnements de risques ».
Ce faisant, les responsables de la CAF cherchent à nier leur responsabilité (politique) dans la conduite, et la validation, d’une politique de contrôle discriminatoire. Nul part n’apparaît que que si les erreurs se concentrent sur les plus précaires, c’est tout simplement parce qu’au fil des ans se sont multipliées les règles et contraintes encadrant l’accès aux minima sociaux, et ce, dans le seul but de restreindre leur accessibilité18.
On mesure enfin l’impact des logiques gestionnaires appliquées aux institutions sociales. Logiques réduisant des millions de vies et d’histoires, à de simples notions statistiques, déshumanisantes, froides et vides de sens.
Communication mensongère
La deuxième partie du document est consacrée à un « Vrai/Faux » portant sur l’algorithme où transpire la malhonnêteté intellectuelle.
A l’affirmation « Les scores de risques les plus élevés concernent toujours les plus pauvres », la CAF répond Faux car « les scores de risques sont calculés pour tous les allocataires ». Ce qui n’a tout simplement aucun sens…
A la question « Les contrôleurs sont payés aux résultats », la CAF répond que ce serait faux, bien qu’elle admette que l’Etat lui fixe bien un objectif à atteindre en termes de détection de fraude. Ici encore, l’institution joue avec les mots. S’il est vrai que les contrôleurs.ses n’ont pas de « prime sur leurs résultats », ils et elles touchent un intéressement, tout comme l’ensemble du personnel de la CAF, dont le montant dépend bien de l’atteinte de ces objectifs de contrôle19.
A la question « Plus de 1000 données concernant les allocataires sont utilisées dans le modèle de datamining des CAF », la CAF répond que seules une quarantaine seraient utilisées. Elle détourne ainsi la question puisque – comme expliqué ci-dessus – elle omet de dire que ces quarante variables sont sélectionnées après une phase d’entraînement du modèle qui nécessite l’utilisation, et le traitement, de plus de mille variables par allocataire20.
Enfin, aux questions « Les contrôleurs de la Caf ont accès à toutes les infos qu’ils souhaitent à l’insu des allocataires », et « Les allocations sont suspendues pendant le contrôle », la CAF répond que non car « aucune demande n’est faite à d’autres administrations, sans en avoir averti auparavant l’allocataire, aucune procédure vis-à-vis d’un tiers n’est engagée à l’insu de celui-ci. » Et ajoute que, lors d’un contrôle, « les allocations ne sont pas suspendues ».
Sur ces deux derniers points, nous vous invitons à lire les témoignages collectés par le Défenseur des Droits, les collectifs « Stop Contrôles », « Changer de Cap » et différentes associations de lutte contre la précarité21 qui alertent depuis des années sur les suspensions abusives d’allocations pendant les contrôles et les pratiques invasives (consultation des comptes bancaires, relevés d’électricité, analyse de l’adresse IP etc…) des contrôleurs·ses de la CAF à l’insu des allocataires.
Fraude à enjeux et lutte contre le non-recours : des contre-feux médiatiques
A ceci s’ajoute diverses annonces de la CAF participant à nourrir une stratégie de diversion médiatique autour de son algorithme de notation.
Dans son dernier rapport annuel sur la « lutte contre la fraude », nulle référence n’est faite à l’algorithme alors que celui-ci était mis à l’honneur, en première page, l’année précédente. La CAF précisant au passage qu’il était loué par la Cour des Comptes et l’Assemblée Nationale.
A sa place, la CAF a préféré cette année mettre en avant son équipe de contrôleur.ses dédiée à la « lutte contre la fraude à enjeux »22, c’est à dire des fraudes organisées (usurpation d’identités, faux documents, fraude au RIB) à grande échelle. Soit 30 agentes et agents qui d’après les dires de la CAF sont, ni plus ni moins, chargé·es de « protéger le système de sécurité sociale français des risques de pillage » et qui font rentrer la CAF dans « une nouvelle dimension de la lutte contre la fraude »23.
A titre de comparaison, nous tenons à rappeler que ce sont pas moins de 700 contrôleuses et contrôleurs qui, guidé·es par son algorithme discriminatoire, sont chargé·es de traquer les moindre erreurs de déclaration faites par les plus précaires.
Deuxième angle d’attaque : la mise en avant de l’utilisation d’algorithmes de profilage à des fins de lutte contre le non-recours24. Comme si l’application des techniques de profilage à des fins « positives » pouvait justifier leur application à des fins répressives. Sur ce sujet, la CAF omet pourtant de dire le plus important : depuis maintenant plus de 10 ans, elle a systématiquement favorisé l’application de ces techniques à des fins de contrôle plutôt que de lutte contre le non-recours.
Ses équipes de « data-scientist » regrettaient dès 2013 que les techniques de profilage des allocataires soient uniquement utilisées à des fins de contrôle et non de lutte contre le non recours25. Cette réalité est rappelée dans un rapport de l’Assemblée Nationale daté de 2016 qui précise que « l’extension explicite de l’usage du data mining à d’autres fins, notamment celle de lutte contre le non-recours, était envisageable dès l’origine, mais cette possibilité a été écartée, au moins dans les premières années d’utilisation de cet outil »26. Il aura fallu attendre 2017 pour que la CAF commence à mener des expérimentations, et il semblerait qu’aujourd’hui le profilage contre le non-recours est limité à la prime d’activité et l’allocation de soutien familial27.
Le sociologue Vincent Dubois ajoute que cette situation « interroge sur la réalité des slogans institutionnels “tous les droits rien que les droits” qui en fait est beaucoup plus tournée vers l’identification des indus, frauduleux ou non, que vers les cas de non-recours qui sont en fait beaucoup plus nombreux »28.
En tout état de cause, l’histoire politique de l’utilisation par la CAF des techniques de profilage à des fins de lutte contre le non-recours ne semble pas très glorieuse.
Ce dernier point interroge aussi sur le fantasme entretenu autour de l’automatisation de l’état social pour répondre aux problèmes sociaux. A l’heure où le gouvernement lance l’expérimentation d’un « RSA sous conditions », la mise en avant de solutions techniques pour lutter contre le non-recours dépolitise la question de l’accès aux droits. Tout en taisant les problèmes que génèrent, pour des millions de personnes, la dématérialisation des services publics.
Enfin, la CAF a annoncé en grande pompe la nomination d’une médiatrice nationale chargée, entre autres, des questions de données personnelles à la CNAF29 en juin 2022. Parmi ses missions : « la protection des données et de la sécurité des usagers dans le cadre des systèmes d’information. » Et le communiqué accompagnant sa nomination ajoute qu’elle « sera également la référente nationale déontologie ». Nous serions plus que ravi·es d’entendre son avis sur l’algorithme de notation de la CAF.
Lutter au-delà de la transparence
La transparence que nous exigeons auprès de la CAF ne doit pas masquer le fond du problème. En un sens, ce que nous savons déjà de l’algorithme de cette institution, sans même avoir eu accès à son code, nous suffit à nous y opposer.
La transparence n’est donc pas une fin en soi : c’est un moyen que nous souhaitons mobiliser pour mettre en lumière, et critiquer, un discours politique cherchant à légitimer la volonté de contrôle d’un appareil étatique via l’entretien d’un discours de suspicion généralisée et la stigmatisation de certaines catégories de la population.
Volonté de contrôle qui, hélas, profite aujourd’hui de la puissance des outils numériques et de l’exploitation de nos données personnelles afin de toujours plus nous évaluer et, ainsi, nous trier.
A l’heure où un nombre toujours plus grand d’institutions, sociales et policières, mettent en place de telles solutions de surveillance algorithmique, nous continuerons de les documenter et de faire ce que nous pouvons, à notre niveau, pour les contrer.
Au côté des collectifs Stop Contrôles, Changer de Cap et de toutes les associations et collectifs de lutte contre la précarité qui font face, depuis des années, aux dérives du tout numérique et au développement sans limite des politiques de contrôle social, nous espérons que vous serez nombreux.ses à nous rejoindre.
Enfin, nous ne doutons pas que ce sentiment d’injustice est partagé par la plupart des employé·es de la CAF. C’est pourquoi nous tenons à encourager celles et ceux qui, révolté·es par ces pratiques, pourraient nous aider à les documenter. Vous pouvez nous contacter par mail, téléphone, en venant nous rendre visite ou déposer de manière anonyme des documents sur notre SecureDrop. A l’heure où les responsables de la CAF font le choix de l’opacité, nous avons plus que jamais besoin de vous.