• Le gouvernement français annonce un nouveau plan de lutte contre les réseaux de #passeurs

    Le ministre français de l’Intérieur #Bruno_Retailleau et la ministre des Comptes publics Amélie de Montchalin ont annoncé, vendredi, la création d’une #cellule_de_renseignements conjointe entre les services de divers ministères pour mieux lutter contre les réseaux de passeurs. L’Intérieur évoque également le déploiement de #nouvelles_technologies pour identifier et pister ces réseaux, sans préciser, pour le moment, les moyens humains et financiers relatifs à ce nouveau plan.

    À l’occasion d’un déplacement dans les bureaux de l’#Office_de_lutte_contre_le_trafic_illicite_de_migrants (#Oltim), à Lognes, en Seine-et-Marne, vendredi 7 février, dans la matinée, les ministres de l’Intérieur #Bruno_Retailleau et des Comptes publics #Amélie_de_Montchalin ont présenté un plan de #lutte contre les réseaux de passeurs.

    L’Intérieur a affiché sa volonté de « désormais mener une lutte à 360 degrés » contre ces #réseaux_criminels. « On a des #filières qui deviennent de plus en plus violentes et dangereuses. Il faut que cette lutte change de dimension (…) pour qu’on ait plus de résultats encore et qu’on soit plus efficace », a déclaré Bruno Retailleau lors d’une conférence de presse.

    « Pour la première fois, une convention va être signée entre #Tracfin [la cellule antiblanchiment du ministère de l’Économie], le #renseignement_financier et les services du #ministère_de_l'Intérieur en charge de la #lutte_contre_l'immigration_clandestine », a souligné Amélie de Montchalin, citée par l’AFP.

    Une « #cellule_d'échanges_de_renseignements » va être créée en associant ensemble les services des ministères des Armées, de l’Intérieur, et du ministère de l’Économie.

    « Un plus grand recours aux technologies »

    Parmi les mesures annoncées, il est également prévu « un plus grand recours aux technologies », comme « la lecture automatique des #plaques_d'immatriculation », la pose de balises sur les #voitures ou « les intercepteurs de #données numériques », a détaillé le ministre, toujours selon l’AFP.

    Pour l’heure, le gouvernement n’a pas donné de détails sur les moyens financiers et humains de ses ambitions.

    D’après le patron de l’Oltim, #Xavier_Delrieu, interviewé par le Figaro jeudi 6 février, « plus de 4 000 passeurs ont été interpellés » en France en 2024, dont 500 en Outre-mer. La majorité des personnes interpellées font partie d’un réseau structuré.

    Ainsi, en 2024, l’Oltim, qui compte 157 enquêteurs spécialisés épaulés par 450 policiers sur tout le territoire, a démantelé « 269 filières » criminelles, « découpées en 66 filières d’entrée sur le territoire national, 132 filières d’aide au maintien sur le territoire, le reste se répartissant entre les filières d’aide au transit et celles de traite des êtres humains ».

    Les filières sont particulièrement actives dans les secteurs du #BTP (60 % des cas), de l’#agriculture et de l’#hôtellerie - café - #restauration, selon Xavier Delrieu.

    S’agissant de l’organisation du passage dans la #Manche, le ministre de l’Intérieur a récemment annoncé des renforts sécuritaires, ainsi que la création d’un nouveau préfet délégué pour la défense et la sécurité dans les Hauts-de-France, #Vincent_Lagoguey.

    Malgré les renforcements des moyens policiers en 2024, plus de 600 traversées ont été répertoriées en 2024 pour 36 000 personnes ayant réussi à rejoindre le Royaume-Uni : soit une hausse de 24 % sur un an, selon l’Oltim.

    https://www.infomigrants.net/fr/post/62726/le-gouvernement-francais-annonce-un-nouveau-plan-de-lutte-contre-les-r

    #France #technologie #migrations #frontières

    ping @karine4

  • Comment les données anonymisées de nos téléphones redessinent la carte des transports en France
    https://www.lemonde.fr/economie/article/2025/02/05/les-donnees-des-telephones-redessinent-la-carte-des-transports_6532494_3234.

    L’utilisation des data de connexion permet aux géographes de mieux étudier la vitalité d’un territoire et aux collectivités de repenser leurs offres de transport.

    [...]

    Que montrent ces données ? D’abord, qu’il y a en France, selon leurs calculs, 70,1 millions d’habitants.année, quand l’Insee recense 65,7 millions de résidents. A l’échelle de Paris, le nombre d’habitants.année – effectivement présents dans la capitale – atteint 3,7 millions : c’est 1,5 million de plus que la population résidente recensée par l’Insee. A Bordeaux ou à Toulouse, on compte en moyenne 130 000 habitants.année de plus que le nombre de résidents. Les villes sont généralement plus denses que ne le montrent les statistiques de l’Insee : « La France dite “urbaine” compte 32 millions de résidents – la moitié des Français, selon l’Insee –, mais nous recensons 43 millions d’habitants.année, plus proche des deux tiers », assurent les experts de #Geonexio.

    Les données d’Orange retravaillées montrent les grands flux. Sans elles, il était déjà possible de mesurer assez finement les déplacements dans les transports en commun, mais moins précisément les trajets en voiture. « Pendant des années, on a défini les offres de transport d’une ville ou d’une région quasiment à l’aveugle, sans données sur ces flux automobiles, qui représentent 80 % des déplacements », assure Jean Coldefy.

    Avec Transdev, il a pu analyser les mouvements de personnes entre 5 heures et 10 heures du matin un jour ouvré de novembre, à l’intérieur des 53 principales métropoles, en incluant leur banlieue au sens large. A Lyon, 211 000 personnes effectuent chaque matin le trajet de la banlieue vers le pôle urbain. A Toulouse, on décompte 187 000 trajets, à Nantes 126 000.

    L’offre de transport répond-elle à ces besoins et permet-elle de renoncer à la voiture ? On en est très loin, selon les données de Geonexio. « En moyenne, il y a cinq fois plus de besoins que de places offertes dans les trains qui vont vers le centre des métropoles, notent les experts. A Lyon, il n’y a que 35 000 places de TER [transport express régional] pour ces 210 000 trajets. » Il en faudrait six fois plus. A Nantes, l’écart est du même ordre. A Toulouse, le déficit est encore plus aigu : on compte de 10 à 18 voyageurs pour une place ! Même ratio à Montpellier, qui pratique la gratuité des transports : « Il y a 15 voyageurs pour une place de TER », constate M. Coldefy.

    (...) Les données d’Orange font aussi apparaître des chaînons manquants dans les liaisons entre les villes. « Ainsi, 10 % des actifs ne travaillent pas dans l’aire urbaine où ils résident, explique Jean Coldefy. Cela représente 3 millions de personnes qui parcourent en moyenne 80 kilomètres par jour. Ces trajets, à eux seuls, dégagent 3 % des émissions de CO2 en France. »

    (...) les trajets entre le domicile et le travail (ceux des 30 millions d’actifs) ne représentent qu’un tiers des distances parcourues sur l’année ; les loisirs, le tourisme, la santé, l’éducation et les déplacements des 37 millions de non-actifs ont, eux aussi, besoin de bons systèmes de transport.

    https://justpaste.it/cu40v

    #data #données_de_connexion #mobilités #transports_en_commun #train #TER

  • La #justice confirme enfin l’#illégalité de #Briefcam

    #Victoire totale aujourd’hui au tribunal administratif de Grenoble ! L’affaire opposant La Quadrature du Net à la ville de #Moirans, en Isère, s’achève par une décision reconnaissant l’illégalité du logiciel de #vidéosurveillance algorithmique Briefcam. La justice ordonne à la commune de cesser immédiatement l’utilisation de ce #logiciel.

    Le logiciel de Briefcam est installé en toute opacité dans de très nombreuses communes de France. Techniquement, il permet d’appliquer des #filtres_algorithmiques sur les images de vidéosurveillance pour suivre ou retrouver les personnes en fonction de leur apparence, leurs vêtement, leur genre ou encore leur visage via une option de reconnaissance faciale. Depuis des années, nous dénonçons la dangerosité de cette #vidéosurveillance_algorithmique (#VSA) qui est un outil inefficace et utilisé surtout pour le contrôle des populations dans l’#espace_public. En parallèle, nous rappelons constamment son illégalité manifeste et le laisser-faire des pouvoirs publics.

    Ainsi, nous avons récemment critiqué la prise de position de la CNIL venue au secours de la police et la gendarmerie nationale, qui utilisaient ce logiciel depuis 2015 et 2017 sans l’avoir déclaré. La CNIL avait validé leur interprétation juridique farfelue pour sauver leur utilisation de ce logiciel dans le cadre d’enquête.

    Or, dans cette affaire contre l’utilisation de Briefcam à Moirans, la CNIL était opportunément intervenue quelques semaines avant l’audience pour affirmer que Briefcam serait légal si utilisé par une commune pour répondre à des réquisitions judiciaires. La décision du #tribunal administratif de Grenoble vient donc contredire frontalement cette position : il estime que le logiciel Briefcam met en œuvre un traitement de #données_personnelles disproportionné et qui n’est pas prévu par la loi, y compris dans le cas particulier d’enquêtes judiciaires.

    Cette décision d’illégalité est une #victoire sans précédent dans notre lutte contre la VSA. Les habitant·es de toute ville, à l’instar de Saint-Denis, Reims ou encore Brest qui ont choisi de mettre en place ce type de #surveillance_algorithmique, peuvent légitimement en demander l’arrêt immédiat. Les promoteurs politiques et économiques de la #Technopolice doivent faire face à la réalité : leurs velléités de #surveillance et de #contrôle de la population n’ont pas leur place dans notre société. La CNIL n’a plus d’autre choix que d’admettre son erreur et sanctionner les communes qui continueraient d’utiliser de la VSA.

    https://www.laquadrature.net/2025/01/30/la-justice-confirme-enfin-lillegalite-de-briefcam
    #efficacité #inefficacité #algorithmes

  • À #France_Travail, l’essor du #contrôle_algorithmique

    « #Score_de_suspicion » visant à évaluer l’honnêteté des chômeur·ses, « #score_d’employabilité » visant à mesurer leur « #attractivité », algorithmes de #détection des demandeur·ses d’emploi en situation de « perte de confiance », en « besoin de redynamisation » ou encore à « risque de dispersion »… France Travail multiplie les #expérimentations de #profilage_algorithmique des personnes sans emploi.

    Mise à jour du 12 juillet 2024 : le directeur général de France Travail a souhaité utiliser son droit de réponse. Vous la trouverez à la suite de l’article.

    Après avoir traité de l’utilisation par la #CAF d’un algorithme de notation des allocataires, nous montrons ici que cette pratique est aussi partagée par France Travail, ex-#Pôle_Emploi. À France Travail, elle s’inscrit plus largement dans le cadre d’un processus de #numérisation_forcée du #service_public de l’#emploi.

    –-> Retrouvez l’ensemble de nos publications sur l’utilisation par les organismes sociaux d’algorithmes à des fins de contrôle social sur notre page dédiée et notre Gitlab : https://git.laquadrature.net/la-quadrature-du-net/algo-et-controle.

    Au nom de la « #rationalisation » de l’action publique et d’une promesse « d’#accompagnement_personnalisé » et de « #relation_augmentée », se dessine ainsi l’horizon d’un service public de l’emploi largement automatisé. Cette #automatisation est rendue possible par le recours à une myriade d’algorithmes qui, de l’inscription au suivi régulier, se voient chargés d’analyser nos données afin de mieux nous évaluer, nous trier et nous classer. Soit une extension des logiques de #surveillance_de_masse visant à un #contrôle_social toujours plus fin et contribuant à une #déshumanisation de l’accompagnement social.

    De la CAF à France Travail : vers la multiplication des « scores de suspicion

    C’est, ici encore, au nom de la « #lutte_contre_la_fraude » que fut développé le premier algorithme de #profilage au sein de France Travail. Les premiers travaux visant à évaluer algorithmiquement l’#honnêteté des personnes sans emploi furent lancés dès 2013 dans la foulée de l’officialisation par la CAF de son algorithme de notation des allocataires. Après des premiers essais en interne jugés « frustrants » [1], France Travail – à l’époque Pôle Emploi – se tourne vers le secteur privé. C’est ainsi que le développement d’un outil de détermination de la probité des demandeur·ses d’emploi fut confié à #Cap_Gemini, une multinationale du CAC40 [2].

    La #notation des chômeur·ses est généralisée en 2018. La présentation qui en est faite par France Travail donne à voir, comme à la CAF, l’imaginaire d’une institution assiégée par des chômeur·ses présumé·es malhonnêtes. Ses dirigeant·es expliquent que l’algorithme assigne un « score de suspicion » – dans le texte – visant à détecter les chômeur·ses les plus susceptibles « d’#escroquerie » grâce à l’exploitation de « #signaux_faibles » [3]. Une fois l’ensemble des personnes sans emploi notées, un système d’« #alertes » déclenche ainsi des #contrôles lorsque l’algorithme détecte des situations « suspectes » (emploi fictif, usurpation d’identité, reprise d’emploi non déclarée) [4].

    Pour l’heure, France Travail s’est refusé à nous communiquer le code source de l’algorithme. Au passage, notons que ses dirigeants ont par ailleurs refusé, en violation flagrante du droit français, de fournir la moindre information aux demandeur·ses d’emploi que nous avions accompagné·es pour exercer leur droit d’accès au titre du #RGPD [5]. Nous avons cependant obtenu, via l’accès à certains documents techniques, la liste des variables utilisées.

    On y retrouve une grande partie des données détenues par France Travail. Aux variables personnelles comme la nationalité, l’âge ou les modalités de contact (mails, téléphone…) s’ajoutent les données relatives à notre vie professionnelle (employeur·se, dates de début et de fin de contrat, cause de rupture, emploi dans la fonction publique, secteur d’activité…) ainsi que nos #données financières (RIB, droits au chômage…). À ceci s’ajoute l’utilisation des données récupérées par France Travail lors de la connexion à l’espace personnel (adresse IP, cookies, user-agent). La liste complète permet d’entrevoir l’ampleur de la #surveillance_numérique à l’œuvre, tout comme les risques de #discriminations que ce système comporte [6].

    #Profilage_psychologique et gestion de masse

    Fort de ce premier « succès », France Travail décide d’accroître l’usage d’algorithmes de profilage. C’est ainsi que, dès 2018, ses dirigeant·es lancent le programme #Intelligence_Emploi [7]. Son ambition affichée est de mettre l’#intelligence_artificielle « au service de l’emploi » pour « révéler à chaque demandeur d’emploi son #potentiel_de_recrutement » [8].

    Un des axes de travail retient notre attention : « Accélérer l’accès et le retour à l’emploi [via un] #diagnostic “augmenté” pour un accompagnement plus personnalisé ». Ici, l’#IA doit permettre de d’« augmenter la capacité de diagnostic » relative aux « traitements des aspects motivationnels » via la « détection de signaux psychologiques » [9]. En son sein, deux cas d’usage retenus sont particulièrement frappants.

    Le premier est le développement d’algorithmes visant à « anticiper les éventuels #décrochages », prévenir les « #risques_de_rupture » [10] ou encore « détecter les moments où ils [les personnes au chômage] peuvent se sentir découragés ou en situation de fragilité » [11].

    Ces travaux ont trouvé, au moins en partie [12], un premier aboutissement dans l’outil du #Journal_de_la_Recherche_d’Emploi (#JRE) actuellement expérimenté dans plusieurs régions de France [13]. Le JRE assigne à chaque incrit·e quatre scores de « profilage psychologique » visant respectivement à évaluer la « dynamique de recherche » d’emploi, les « signes de perte de confiance », le « besoin de #redynamisation » ou les « risques de dispersion » [14].

    Ces informations sont synthétisées et présentées aux conseiller·es sous la forme d’un tableau de bord. « Parcours à analyser », « Situations à examiner », « Dynamique de recherche faible » : des alertes sont remontées concernant les chômeur·ses jugé·es déficient·es par tel ou tel algorithme. Le ou la conseiller·e doit alors faire un « #diagnostic_de_situation » – via l’interface numérique – afin d’« adapter l’intensité » des « actions d’accompagnement ». Et là encore, ils et elles peuvent s’appuyer sur des « #conseils_personnalisés » générés par un dernier algorithme [15].

    Contrôle, #mécanisation et déshumanisation de l’accompagnement : voilà la réalité de ce que le directeur de France Travail appelle « l’accompagnement sur mesure de masse » [16].

    Diagnostic et score d’#employabilité

    Le second cas d’usage est tout aussi inquiétant. Il s’agit de déterminer la « qualité » d’un·e demandeur·se d’emploi. Ou, pour reprendre les termes officiels, son « employabilité » [17]. Ce projet n’est pas encore déployé à grande échelle, mais nous savons qu’une première version – basée, elle, sur des techniques d’intelligence artificielle [18] – a été développée en 2021 [19].

    L’algorithme alloue à chaque inscrit·e un score prédisant ses « chances de retour à l’emploi ». Véritable outil automatique de #tri des chômeur·ses, il vise à organiser la « #priorisation des actions d’accompagnement » [20] en fonction d’un supposé #degré_d’autonomie de la personne sans emploi.

    Si les informations disponibles sur ce projet sont limitées, on peut imaginer que ce score permettra le contrôle en temps réel de la « progression de la #recherche_d’emploi » via les actions entreprises pour améliorer « l’attractivité [de leur] profil » [21]. Il serait alors un indicateur d’évaluation en continu de la bonne volonté des chômeur·ses.

    Mais on peut aussi penser qu’il sera utilisé pour inciter les personnes sans emploi à se diriger vers les « #métiers_en_tension », dont une majorité concentre les conditions de travail les plus difficiles. En demandant aux chômeur·ses d’améliorer leur score, via une #réorientation, ils et elles seraient encouragé·es à accepter un emploi au rabais.

    Agenda partagé & agences virtuelles

    Mais l’étendue du processus de numérisation à l’oeuvre à France Travail va bien au-delà de ces exemples. Côté contrôle numérique, citons l’interface « #XP_RSA » [22], l’outil numérique déployé dans le cadre de la récente réforme du #RSA. Cette interface n’est rien d’autre qu’un agenda partagé permettant de déclarer, et de contrôler, les quinze à vingt « #heures_d’activité » hebdomadaires dont vont devoir s’acquitter les bénéficiaires du minima social. Son remplissage forcé est un pas supplémentaire vers le #flicage des plus précaires.

    Côté IA, France Travail a lancé en 2024 le programme « #Data_IA » [23], successeur d’Intelligence Emploi mentionné plus haut. Présenté avec fracas au salon de l’« innovation technologique » VivaTech – organisé par le groupe Publicis –, on retrouve parmi les projets en développement une #IA_générative visant à numériser l’accompagnement et la #recherche_d’emploi (« #Match_FT ») [24]. France Travail s’intéresse aussi aux « #maraudes_numériques » pour « remobiliser les jeunes les plus éloignés de l’emploi » [25] et au développement d’« #agences_virtuelles » [26].

    #Austérité, automatisation et #précarisation

    La numérisation de France Travail signe la naissance d’un modèle de gestion de masse où coexistent une multitude d’algorithmes ayant chacun la tâche de nous classifier selon une dimension donnée. Risque de « fraude », de « dispersion », de « perte de confiance », suivi des diverses obligations : les capacités de collecte et de traitements de données sont mises au service de la détection, en temps réel, des moindres écarts à des normes et règles toujours plus complexes [27]. Cette numérisation à marche forcée sert avant tout à contrôler les personnes sans emploi [28].

    À l’heure où Gabriel Attal annonce une énième réforme de l’assurance-chômage passée en force alors que l’Assemblée nationale est dissoute, ce contrôle ne cache plus son but : forcer les plus précaires à accepter des #conditions_de_travail toujours plus dégradées [29].

    Loin des promesses de « libérer du temps pour les conseillers » ou d’offrir un accompagnement « plus réactif et plus personnalisé » [30] aux personnes sans emploi, cette numérisation contribue à la déshumanisation d’un service essentiel et à l’#exclusion des plus précaires, voire tend à une généralisation du #non-recours_aux_droits. Il ne s’agit pas d’idéaliser le traitement « au guichet », mais de rappeler que la numérisation forcée accentue les écueils de ce dernier. En accompagnant la fermeture des points d’accueil, elle transfère une partie du travail administratif aux personnes usagères du service public, participant à l’éloignement de celles et ceux qui ne sont pas en mesure de le prendre en charge [31].

    En standardisant les processus d’accompagnement, via la #quantification de chaque action et le profilage de toute une population, elle restreint les possibilités d’échange et supprime toute possibilité d’accompagnement réellement personnalisé [32].

    En facilitant le contrôle généralisé, elle accentue enfin la #stigmatisation des plus précaires et participe activement à leur #paupérisation.

    –-

    Mise à jour du 12 juillet 2024

    À la suite de notre article, France Travail, via son directeur général Thibaut Guilly, a souhaité exercer son droit de réponse que nous publions ci-dessous in extenso.

    « Madame, Monsieur,

    Je reviens vers vous suite à mon précédent courrier du 2 juillet.

    Bien que le délai de 3 jours prévu à l’article 1.1-III de la loi n°2004-575 du 21 juin 2004 pour la confiance dans l’économie numérique soit aujourd’hui expiré, je constate que le droit de réponse qui vous a été adressé n’a pas été publié. Pour rappel, le non-respect de cette obligation est passible d’une amende de 3 750 €.

    Aussi, je réitère par la présente ma demande de publication d’un droit de réponse suite à la parution le 25 juin 2024 de l’article intitulé « A France Travail, l’essor du contrôle algorithmique » (librement accessible à l’adresse : https://www.laquadrature.net/2024/06/25/a-france-travail-lessor-du-controle-algorithmique).

    Dans cet article, vous évoquez un « service public de l’emploi largement automatisé », ainsi qu’une utilisation des algorithmes qui « contribue à la déshumanisation d’un service essentiel », favorise « la stigmatisation des plus précaires et participe activement à leur paupérisation » et constitue « un pas supplémentaire vers le flicage des plus précaires ». Il s’agirait d’une « extension des logiques de surveillance de masse visant à un contrôle social toujours plus fin et contribuant à une déshumanisation de l’accompagnement social », cette « numérisation à marche forcée ser[van]t avant tout à contrôler les personnes sans emploi ». Vous faites également état de « la fermeture des points d’accueil ».

    Nous nous inscrivons en faux contre ces propos erronés qui conduisent à jeter un discrédit sur le travail des plus de 55 000 collaborateurs qui accompagnent chaque jour les demandeurs d’emploi et les entreprises et à travestir la réalité concernant l’usage que nous faisons de ces algorithmes.

    L’utilisation des algorithmes au sein de France Travail ne vise en aucun cas à remplacer le travail des conseillers. L’intelligence artificielle (IA) vient en complément et ne se substitue jamais à une intervention humaine. Au contraire, nous concevons les algorithmes et l’IA comme des outils d’aide à la décision pour les conseillers ou un moyen de leur libérer du temps administratif afin de leur permettre de se consacrer pleinement à l’accompagnement des demandeurs d’emploi.

    Toute utilisation d’algorithmes est en outre encadrée par une charte éthique (https://www.francetravail.org/accueil/communiques/pole-emploi-se-dote-dune-charte-pour-une-utilisation-ethique-de-linte) qui décrit nos engagements pour garantir un cadre de confiance respectueux des valeurs de France Travail, à l’opposé de toute « notation de chômeurs » que vous pointez dans votre article. Un comité d’éthique externe composé de personnalités qualifiées garantit le respect de ce cadre. En aucun cas, les algorithmes ne sont utilisés pour « encourager les demandeurs d’emploi à accepter des emplois au rabais ».

    Concernant la « mécanisation » ou la « déshumanisation » de l’accompagnement que vous avancez, c’est méconnaitre le travail que réalisent les conseillers quotidiennement dans plus de 900 agences ou par téléphone. Aucun projet de fermeture d’agence n’est d’ailleurs envisagé contrairement à ce que vous dites et France Travail est un des rares services publics à être ouvert tous les jours, sur flux le matin et sur rendez-vous l’après-midi. Plus de 8,8 millions de personnes sont venues dans nos agences l’année dernière. Cet accueil en agence reflète justement notre politique de proximité et d’accompagnement notamment des plus précaires. L’ambition de la loi pour le plein emploi est en outre de renforcer l’accompagnement humain des plus éloignés, en particulier des bénéficiaires du RSA.

    Vous parlez enfin de « flicage des plus précaires » à travers l’utilisation d’algorithmes concernant le contrôle de la recherche d’emploi et la lutte contre la fraude. Il convient tout d’abord de souligner que ce sont deux activités distinctes, le contrôle de la recherche d’emploi ne saurait être assimilé à de la lutte contre de la fraude, qui est, par définition, une activité illégale et susceptible de poursuites pénales. Sur ce dernier point, l’utilisation des données dans la lutte contre la fraude vise avant tout à protéger nos usagers. En effet, la majorité des situations recherchées par les équipes de France Travail ne concerne pas des demandeurs d’emploi mais des individus qui détournent les services d’indemnisation du chômage, bien souvent au préjudice de nos usagers : usurpation d’identité des demandeurs d’emploi pour s’approprier leurs droits à l’assurance chômage ou détourner leurs paiements, individus se fabricant un faux passé professionnel ou une fausse résidence en France pour ouvrir des droits indus. Concernant le contrôle de la recherche d’emploi, là encore nous réfutons vivement l’idée selon laquelle nous mènerions une chasse aux plus précaires. Tout demandeur d’emploi inscrit à France Travail bénéficie de droits mais a également des devoirs qui lui sont présentés dès son inscription, dont celui de rechercher activement un emploi. 600 conseillers sont dédiés à ce contrôle et là encore, l’IA est un outil d’aide et en aucun la pierre angulaire des contrôles réalisés par ces conseillers en contact avec les demandeurs d’emploi tout au long de ce processus de contrôle. Là encore votre article méconnaît le travail de nos conseillers et constitue une atteinte à leur engagement et à leur intégrité.

    Je vous remercie de publier sans délai ce droit de réponse. A défaut, je me réserve la possibilité de saisir les juridictions à cet effet.

    Je vous prie d’agréer, Madame, Monsieur, l’expression de mes sincères salutations.

    Thibaut Guilluy »

    Notre réponse :

    À la suite de notre article, France Travail, via son directeur général Thibaut Guilly, nous a initialement écrit pour faire des remarques d’ordre général sur notre article. Puis, dans une nouvelle lettre reçue aujourd’hui, il est subitement passé aux menaces : nous n’aurions, selon lui, pas fait droit à sa prétendue « demande de publication d’un droit de réponse ». Ces menaces sont particulièrement malvenues et, au demeurant, totalement vaines, puisque rien dans son courrier initial n’indiquait qu’il s’agissait d’une demande de droit de réponse…

    Le directeur général de France Travail s’en tient à une poignée d’éléments de langage sans jamais répondre sur le fond. Pas un mot sur la multiplication des algorithmes de profilage à des fins de contrôle. Tout au plus y apprend-on que des algorithmes d’IA sont aussi utilisés à des fins de « contrôle de la recherche d’emploi », ce que nous ignorions.

    Cette lettre se borne ainsi à un simple exercice, maladroit et malvenu, de communication. Elle s’essaye vainement à réfuter l’expression de « flicage des plus précaires » pour décrire les outils de surveillance des allocataires du RSA. La mise en place d’un agenda partagé pour le contrôle des 15 à 20 heures d’activité de ces dernier·ès serait ainsi – il faut savoir apprécier l’humour – une mesure visant à « renforcer l’accompagnement humain ».

    Quant à l’impact de la numérisation sur l’accueil des plus précaires, le directeur général de France Travail nie la réalité, tout comme son homologue de la CNAF, afin de minimiser l’étendue de la surveillance et le projet politique sous-jacent. Qu’a-t-il donc à répondre à la Défenseure des droits qui, en 2022 dans son deuxième rapportsur la dématérialisation des services publics, rappelait la hausse des inégalités et des réclamations en raison de cette dématérialisation « à marche forcée » ?

    Enfin, opposer, comme le fait cette lettre, le travail des salarié·es de France Travail et notre action de documentation et d’alerte sur les abus de l’administration est stérile : la déshumanisation et le changement de nature du service public se font non seulement au détriment des personnes au chômage mais également des agent·es de France Travail, comme l’ont dénoncé syndicats et associations au moment de la réforme de l’assurance chômage et la transformation de Pôle Emploi en France Travail [33].

    Ce que cette lettre souligne avant tout c’est donc l’absence de recul, de capacité de remise en cause et d’esprit critique du directeur général de France Travail quant à l’extension des logiques de contrôle numérique au sein de son institution. Ou sa pleine adhésion à ce projet.
    Notes

    [1] Voir cette note de synthèsenote de synthèse revenant sur les premières expérimentation faites par Pôle Emploi.

    [2] Voir cet article sur l’implication de Cap Gemini dans la réalisation de l’outil de scoring.

    [3] L’expression « score de suspicion » est extraite de l’analyse d’impact disponible ici, celle de « signaux faibles » d’une note de suivi des travaux OCAPI 2018 disponible ici, celle d’« indices » de l’ article présentant la collaboration de France Travail avec Cap Gemini. Quant au terme d’« escroquerie », il est issu d’un échange de mails avec un·e responsable de France Travail.

    [4] L’algorithme utilisé semble se baser sur des arbres de décisions, sélectionnés via XGBoost. Les principaux cas d’entraînement semblent être la détection de périodes d’activité dites « fictives » – soit des périodes de travail déclarées mais non travaillées – d’usurpation d’identité et de reprise d’emploi non déclarée. Voir ce document.

    [5] Nous accompagnons différentes personnes dans des demandes d’accès à leurs données personnelles. Pour l’instant, France Travail s’est systématiquement opposé à leur donner toute information, en violation du droit.

    [6] Voir notamment nos articles sur l’algorithme de la CAF, en tout point similaire à cette page.

    [7] Ce programme, financé à hauteur de 20 millions d’euros par le Fond de Transformation de l’Action Publique a été construit autour de 3 axes et s’est déroulé de 2018 à 2022. Voir notamment la note de 2020 envoyée à la DINUM par France Travail, disponible ici.

    [8] Rapport annuel 2018 de Pôle Emploi disponible ici.

    [9] Voir cette note envoyée par Pôle Emploi à la DINUM.

    [10] voir note 9

    [11] Voir ce support de webinaire.

    [12] En partie puisqu’au cœur des algorithmes du JRE, nulle trace de machine learning ou de traitements statistiques complexes. Chaque score résulte de l’application de règles simples, bien loin des ambitions initiales de recours à l’intelligence artificielle. Les dirigeant·es de France Travail semblent ici avoir éprouvé les limites d’un techno-solutionnisme béat. Voir ce document. À noter aussi que ce document évoque une « brique IA Mire » portant sur la détection de « situations de décrochage ». Il se pourrait donc que des algorithmes plus avancés soient en développement.

    [13] Le JRE est une refonte de l’interface numérique. Voir à ce sujet l’excellent article de Basta disponible ici. Si le JRE ne semble pas avoir été créé dans le cadre du programme Intelligence Emploi, il semble avoir été le cadre d’expérimentations de plusieurs des solutions produites. Voir ici.

    [14] Voir le document « Fiches pratiques à destination des conseillers » portant sur le JRE disponible ici.

    [15] Les documents les plus parlants sur la mécanisation de l’accompagnement via le JRE sont ce support et ce document à destination des conseiller·es. Voir aussi les documents que nous mettons en ligne sur l’utilisation d’IA pour générer des conseils automatisés, consultables par les personnes sans emploi et les conseiller·es.

    [16] Voir cette interview du directeur actuel de France Travail.

    [17] Pour un aperçu historique de la notion d’employabilité, voir le chapitre 5 de France Travail : Gérer le chômage de massse de J.-M Pillon.

    [18] Voir cette note envoyée par Pôle Emploi à la DINUM en 2020.

    [19] Voir cette autre note envoyée par Pôle Emploi à la DINUM en 2021.

    [20] voir note 18

    [21] Voir ce document sur l’utilisation de l’IA à Pôle Emploi.

    [22] Voir ce document de présentation de XP RSA.

    [23] Voir ce document de présentation du programme Data IA.

    [24] Pour Match FT, voir cet entretien, ce tweet et cet article de la Banque des Territoires. Voir aussi Chat FT, l’IA générative pour l’instant dédiée aux conseillers·es, dans ce document.

    [25] Voir ce tweet.

    [26] Voir ce tweet.

    [27] Sur la réforme à venir, voir notamment cet article du Monde. Sur le triplement des contrôles, voir cet articledu même journal.

    [28] Sur l’histoire du contrôle à France Travail, voir le livre Chômeurs, vos papiers de C. Vivès, L. Sigalo Santos, J.-M. Pillon, V. Dubois et H. Clouet, le rapport Le contrôle des chômeurs de J.-M. Méon, E. Pierru et V. Dubois disponible Sur le triplement des contrôles, voir ici et le livre France Travail : gérer le chômage de masse de Jean-Marie Pillon.

    [29] voir note 27

    [30] Voir, entre autres, cette vidéo du responsable du programme Data IA.

    [31] Voir le livre L’Etat social à distance de Clara Deville.

    [32] Voir le texte Déshumaniser le travail social de Keltoum Brahan et Muriel Bombardi, publié dans le numéro de février 2017 de CQFD.

    [33] La CGT a dénoncé une réforme qui n’« est pas favorable » aux personnes sans emploi. La CGT Pôle Emploi y voit une numérisation du service public qui « détruira les nécessaires relations humaines, et accentuera la fracture numérique et donc la précarité » et une réforme qui va « renforcer les devoirs au détriment des droits », ou encore « accroître les tensions entre les agents et les demandeurs d’emploi ». Solidaires a dénoncé le caractère « trompeur » de l’accompagnement. Côté personnes sans emploi, le constat est le même : cette transformation rend les personnes « Coupable[s] d’être au chômage » d’après le comité National CGT des Travailleurs Privés d’Emploi et Précaires. Enfin, les associations de solidarité et des syndicats ont ensemble dénoncé dans le Monde le « risque des contrôles abusifs de la situation globale des ménages ».

    https://lagrappe.info/?A-France-Travail-l-essor-du-controle-algorithmique-1132
    #algorithme #chômage #profilage

  • L’accélération de l’#IA pose déjà des questions de #pénuries d’#eau et d’#énergie

    Le Royaume-Uni comme les États-Unis viennent de présenter de nouveaux plans pour soutenir la mise en place d’#infrastructures pour l’IA dans leurs territoires. Mais actuellement, aux États-Unis, de nouvelles #centrales au gaz sont ouvertes pour répondre aux demandes d’énergie de l’IA. Au Royaume-Uni, l’implantation par le gouvernement de sa « première zone de croissance de l’IA » près d’un nouveau réservoir pose la question des priorités d’#accès_à_l'eau.

    Ce mardi 14 janvier et six jours avant la passation de pouvoir à Donal Trump, Joe Biden a publié un décret pour l’investissement des États-Unis dans des infrastructures. « Je signe aujourd’hui un décret historique visant à accélérer la vitesse à laquelle nous construisons la prochaine génération d’infrastructures d’IA ici aux États-Unis, de manière à renforcer la compétitivité économique, la sécurité nationale, la sécurité de l’IA et l’énergie propre », affirme-t-il.

    Selon certaines estimations, la consommation énergétique de l’IA devrait être multipliée par 4 à 9 d’ici 2050 et la consommation d’énergie des #data_centers aux États-Unis est déjà très carbonée.

    Le #gaz comme source d’énergie future aux États-Unis

    Mais, malgré les différentes annonces d’investissements dans le nucléaire par les géants du numérique, les États-Unis seraient plutôt à l’aube d’un boom de la construction de #centrales_électriques au gaz naturel, selon le Financial Times. Le journal économique américain explique que « les grandes entreprises technologiques se tournent vers les #combustibles_fossiles pour répondre aux énormes besoins en #électricité de la révolution de l’intelligence artificielle, ce qui met en péril les objectifs en matière de climat ».

    Le journal cite le cabinet de conseil en énergie #Enverus qui prévoit qu’au moins 80 centrales électriques au gaz seront construites aux États-Unis d’ici à 2030. Le Financial Times estime la capacité supplémentaire de ces centrales à 46 gigawatts, « soit la taille du réseau électrique norvégien et près de 20 % de plus que ce qui a été ajouté au cours des cinq dernières années ». Et selon Corianna Mah, analyste pour Enverus interrogée par le journal, « le gaz croît en fait plus rapidement aujourd’hui, et à moyen terme, que jamais auparavant ». Aucun des projets qu’Enverus a listés ne prévoit d’être équipé d’un système de capture de dioxyde de carbone.

    Approvisionnement de l’eau dans un lac de barrage prévu pour la population britannique

    De son côté, le gouvernement du Royaume-Uni vient d’annoncer une stratégie nationale pour faire de son pays un leader en matière d’intelligence artificielle. Dedans, il prévoit entre autres des « Zones de croissance de l’IA » (#IA_growth_zones), « des zones bénéficiant d’un meilleur accès à l’électricité et d’un soutien pour les autorisations de planification, afin d’accélérer la mise en place d’une infrastructure d’IA sur le sol britannique », comme l’explique le communiqué du Secrétariat d’État à la science, à l’innovation et à la technologie.

    Mais des questions se posent sur l’emplacement prévu de la première « #zone_de_croissance ». Situé à Culham, au siège de l’Autorité britannique de l’énergie atomique (UKAEA), cet endroit est aussi celui du premier nouveau lac de barrage construit depuis 30 ans aux Royaume-Uni, « qui était censé fournir de l’eau aux habitants du sud-est de l’Angleterre, qui souffre d’un grave problème d’approvisionnement en eau », explique le Guardian.

    Le journal britannique souligne que cette région est celle qui, selon l’agence environnementale nationale, est la plus sensible du pays aux manques d’eau. Entre les réserves d’eau disponibles et la demande attendue sans compter les data centers, le sud-est du pays sera confronté à un déficit potentiel de plus de 2,5 milliards de litres par jour d’ici 2050.

    Du côté énergétique, le gouvernement britannique a mis en place un Conseil de l’énergie de l’IA qui doit travailler avec les entreprises du secteur pour « pour comprendre les demandes et les défis énergétiques » liés à l’intelligence artificielle. Il parie encore sur la possibilité de mettre en place des #SMR (#réacteurs_nucléaires_modulaires).

    « L’expansion de l’IA a été un sujet de préoccupation pour #National_Grid [entreprise de distribution de l’électricité et du gaz notamment au Royaume-Uni], mais la vitesse à laquelle la demande de calcul de l’IA augmente a pris tout le monde par surprise et, à moins que nous n’équilibrions correctement les compromis ci-dessus, avec des politiques appropriées, toute l’énergie verte et bon marché dont nous disposons sera utilisée par les grandes entreprises technologiques, ce qui privera les familles qui souffrent déjà de la pauvreté énergétique », explique Gopal Ramchurn, chercheur de l’université de Southampton, interrogé par le Guardian.

    La #France s’appuie sur son #nucléaire, mais des tensions sont présentes

    Quant à la France, l’instabilité politique ne permet pas d’y voir très clair dans la politique du pays concernant l’IA. Lors de son discours de politique générale, le premier Ministre François Bayrou a évoqué l’IA lorsqu’il a annoncé la création d’un fonds spécial « entièrement [consacré] à la réforme de l’État ». Ce fonds sera financé par des actifs « en particulier immobiliers, qui appartiennent à la puissance publique, de façon à pouvoir investir, par exemple, dans le déploiement de l’intelligence artificielle dans nos services publics ».

    Lors de ses vœux, le Président de la Région Normandie Hervé Morin a évoqué la volonté de sa région d’être référente en matière d’intelligence artificielle et d’accueillir des data centers sur trois ou quatre points du territoire. Il a mis en avant « son potentiel énergétique décarboné », faisant référence aux centrales nucléaires de Flamanville, Paluel et Penly et à l’EPR situé lui aussi à Flamanville.

    Mais RTE tirait récemment un signal d’alarme sur le foisonnement de projets de data centers prévus pour l’IA. Si l’entreprise affirmait en novembre à l’Usine Nouvelle avoir « assez d’électricité pour répondre à la croissance des besoins », elle pointait aussi du doigt une « course à la capacité » et un manque de planification :« plusieurs projets ont été abandonnés en raison de tensions sur la distribution de l’énergie », ajoutait-il.

    https://next.ink/165467/lacceleration-de-lia-pose-deja-des-questions-de-penuries-deau-et-denergie

    #intelligence_artificielle #AI #énergie_nucléaire

    • Pourquoi l’IA générative consomme-t-elle tant d’énergie ?

      #DeepSeek défraye la chronique en proposant un modèle dont les #performances seraient comparables à celles des modèles préexistants, pour un coût très réduit en termes de puissance de calcul et de données, et donc une #consommation_énergétique moindre. Quand on sait que Microsoft a indiqué une hausse de 29,1 % d’émission de carbone sur l’année 2023 et que différentes grandes entreprises du numérique investissent dans des capacités de production d’électricité, le tout en lien avec l’essor de l’#IA_générative, l’enjeu est de taille. Pourquoi l’IA générative consomme-t-elle tant ? Décryptage.

      Les grands modèles de langage (Large Language Models ou LLM), comme ChatGPT (OpenAI), Gemini (Google/DeepMind) ou encore les modèles génératifs d’images comme #Midjourney, sont devenus en très peu de temps des outils incontournables avec des usages qui ne cessent de s’amplifier et de se diversifier. Il est vrai que la fluidité des échanges avec ChatGPT impressionne, et que les promesses de développement sont enthousiasmantes.

      Néanmoins, ces promesses cachent des coûts de calcul, et donc énergétiques, considérables. Or, aujourd’hui l’idée dominante dans l’industrie des modèles génératifs est : « Plus grand est le modèle, mieux c’est. » Cette compétition s’accompagne d’une croissance de la consommation énergétique et, donc, de l’empreinte écologique qui ne peut plus être ignorée et qui questionne quant à sa pérennité et sa viabilité pour la société.
      Pourquoi un tel coût ?

      Un modèle génératif de texte comme un chatbot est un ensemble de paramètres numériques ajustés à partir de données pour accomplir une tâche spécifique. L’architecture dominante s’appuie sur les « transformers ».

      Les #transformers prennent une séquence en entrée, par exemple un prompt (soit votre question), pour la transformer numériquement. En empilant les couches de transformers, le modèle multiplie ces transformations afin de construire la réponse en prolongeant son entrée. Cet empilement de couches confère au modèle son efficacité et fait croître le nombre de paramètres. C’est pourquoi un modèle tel que GPT-4 contient au moins 1 tera (1 000 milliards) de paramètres et nécessite donc au moins 2 tera octets (To) de mémoire vive pour être utilisable.

      Que ce soit pour l’entraînement, pour le stockage des données et des paramètres, ou pour le calcul d’une réponse, des infrastructures de calcul de plus en plus puissantes sont donc indispensables. En d’autres termes, contrairement à ce que l’on croit souvent, ce n’est pas juste pour entraîner le modèle que ces techniques sont très coûteuses.

      Des données émerge la « connaissance »

      Avant tout, un modèle génératif doit être « appris ». Pour cela des données (textes, images, sons, etc.) lui sont présentées à maintes reprises afin d’ajuster ses paramètres. Plus il y a de paramètres, plus la phase d’apprentissage est coûteuse en données, mais aussi en temps et en énergie.

      Ainsi, pour un LLM (grand modèle de langage), on parle par exemple de l’ordre de la dizaine de trillions de données (environ 10 trillions pour GPT-4 et 16 trillions pour Gemini) et aux alentours de trois mois de préapprentissage sur environ 20 000 puces A100 de NVIDIA pour le dernier-né d’OpenAI. Ces modèles les plus performants sont en fait une combinaison de plusieurs énormes modèles (les « Mixture of Experts »), GPT-4 étant ainsi le résultat de 16 experts de 110 milliards de paramètres, selon les rares informations disponibles.

      Après cette phase d’apprentissage, le modèle est déployé afin de répondre aux utilisateurs dans une phase dite d’« inférence ». Pour faire face à la demande (ces systèmes construits pour répondre à plusieurs personnes en même temps) avec un temps de réponse satisfaisant, le modèle est alors dupliqué sur différents clusters de calcul. Un article de recherche constate également que les architectures génératives polyvalentes consomment significativement plus d’énergie à l’inférence que les systèmes spécifiques à une tâche, même à taille de modèle équivalente.

      Ce survol des besoins en termes de calcul donne une idée des ordres de grandeur qui se cachent derrière nos interactions — qui semblent si rapides et efficaces — avec ces énormes modèles. Il permet surtout de poser différemment la question de l’évaluation de ces modèles, en y incluant la question de la soutenabilité en termes énergétiques et écologiques. Des travaux récents proposent ainsi un modèle pour évaluer les impacts environnementaux de la fabrication des cartes graphiques et une analyse multicritère des phases d’entraînement et d’inférence des modèles d’apprentissage automatique.
      Obsolescence et frugalité

      Ainsi les grands modèles génératifs nécessitent des infrastructures matérielles colossales.

      Au-delà de considérations économiques, il a été montré que passé un certain point, les gains de performances ne justifient pas une telle explosion du nombre de paramètres. Toutes les applications ne nécessitent pas d’énormes modèles et des approches plus modestes peuvent être aussi performantes, plus rapides et moins coûteuses.

      Sur le plan environnemental, l’apprentissage et l’inférence de modèles massifs ont un coût énergétique qui nécessitent réflexion. Les travaux de certains auteurs soulignent la complexité de mesurer avec précision l’empreinte carbone de ces grands modèles, tout en montrant leur impact considérable : 50,5 tonnes équivalent CO2 (CO2 eq) pour un modèle de 176 milliards de paramètres, appris en 2023… et pratiquement considéré comme obsolète aujourd’hui. Pour rappel, si un Français moyen rejette actuellement environ 10 tonnes CO2 eq par an, l’objectif à l’horizon 2050 pour respecter l’engagement des accords de Paris est d’environ 2 tonnes CO₂ eq par Français et par an.

      Quant à la phase d’inférence (ou d’utilisation, quand on pose une question à GPT), lorsqu’elle est réalisée des millions de fois par jour, comme c’est le cas pour un assistant conversationnel, elle peut engendrer un coût énergétique considérable, parfois bien supérieur à celui de l’entraînement.

      Ainsi, un outil développé en 2019 a permis d’estimer qu’une inférence de ChatGPT 3.5 produisait environ 4,32 grammes de CO2.

      À l’heure où les assistants conversationnels sont peut-être en passe de remplacer les moteurs de recherche standards (Google, Bing, Qwant), la question de son utilisation se pose, car ces derniers ont un coût 10 à 20 fois moindre (0,2 gramme de CO2 la recherche, d’après Google).

      Enfin, la concentration de pouvoir entre quelques acteurs disposant des ressources nécessaires pour développer ces modèles — data centers, données, compétences — pose des problèmes scientifiques en limitant la diversité des recherches, mais aussi stratégiques et politiques.
      Les recherches en IA frugale

      La frugalité consiste à se fixer dès le départ une enveloppe de ressources (calcul, mémoire, données, énergie) et à concevoir des modèles capables de s’y adapter. L’idée n’est pas de sacrifier les performances, mais de privilégier la sobriété : optimiser chaque étape, du choix de l’architecture à la collecte des données, en passant par des méthodes d’apprentissage plus légères, afin de réduire l’empreinte environnementale, d’élargir l’accès à l’IA et de favoriser des applications réellement utiles.

      La recrudescence de travaux de recherche sur ce thème illustre la volonté de penser l’IA sous l’angle de la sobriété. Il s’agit ainsi de replacer la pertinence, l’impact sociétal et la soutenabilité au cœur de la recherche.

      Concrètement, de nombreuses pistes émergent. Sur le plan de l’apprentissage, il s’agit d’explorer des alternatives algorithmiques au paradigme actuel, hérité du milieu des années 1980 et qui n’a jamais été remis en question alors même que les quantités de données et la puissance de calcul n’ont plus rien à voir avec celles qui prévalaient aux débuts de ces modèles.

      Ainsi, au-delà des optimisations techniques, une réflexion méthodologique de fond s’impose, tant le contexte scientifique a évolué depuis les années 1980. Cette réflexion est au cœur, par exemple, du projet Sharp, financé par le programme France 2030. L’étude d’architectures plus compactes et spécialisées est également abordée avec le projet Adapting du même programme.

      Les mathématiques appliquées peuvent jouer un rôle clé en proposant des « représentations parcimonieuses », des méthodes de factorisation, ou en optimisant l’usage de données faiblement annotées.

      Ainsi, en travaillant avec des contraintes de ressources, ces recherches visent un développement en IA plus frugal et donc durable, ainsi que plus accessible, et indépendant de l’hyperconcentration du marché. Elles limitent les externalités négatives — environnementales, éthiques, économiques — liées à la course effrénée vers le gigantisme.

      Mais pour atteindre ces objectifs, il est aussi important d’avancer sur les critères et les méthodes d’évaluations en IA : avec le paradigme dominant actuel, la dimension de frugalité peine encore à s’imposer, que ce soit du côté de la recherche ou industriel. Il ne faut d’ailleurs pas confondre la récente explosion des outils de DeepSeek avec de la frugalité, les coûts en calcul et en données étant eux aussi extrêmement élevés, avec des méthodes probablement éthiquement répréhensibles.

      Ainsi, le monde académique doit mieux intégrer cette dimension afin d’améliorer la visibilité et la valorisation des travaux qui visent la frugalité.
      L’IA que nous développons est-elle vraiment utile ?

      La frugalité en IA n’est pas un simple concept, mais une nécessité face aux enjeux actuels. Les travaux récents sur son empreinte carbone illustrent l’urgence de repenser nos méthodes. Avant même d’envisager les manières de rendre l’IA plus sobre, il est légitime de se demander si l’IA que nous développons est vraiment utile.

      Une approche plus frugale, mieux pensée et mieux orientée, permettra de construire une IA tournée vers le bien commun, s’appuyant sur des ressources maîtrisées, plutôt que sur la surenchère permanente en taille et en puissance de calcul.

      Cet article a été écrit dans le cadre de la troisième édition des Dauphine Digital Days qui a eu lieu à l’Université Paris Dauphine — PSL, du 18 au 20 novembre 2024.

      https://theconversation.com/pourquoi-lia-generative-consomme-t-elle-tant-denergie-247406

    • IA : un puits sans fond de dépenses en énergie, en #eau et en #CO2

      Emmanuel Macron veut croire que la France a « des #data_centers_propres ». Mais les dégâts environnementaux des industries numériques sont déjà tangibles (consommation d’#électricité, émissions de CO2, besoins en eau et en #minerais, conflits d’usage sur le #foncier) alors que l’idée d’une #IA_verte n’est encore qu’une promesse.

      Si le climat était une intelligence artificielle (IA), le monde serait en train de le sauver. Face au tsunami d’investissements publics et privés programmés pour ses infrastructures, il est tentant de détourner le fameux slogan : « Si le climat était une banque, ils l’auraient déjà sauvé. » Car si ces annonces financières brillent de l’or des profits à venir, elles éclipsent un problème tout aussi exponentiel : les impacts environnementaux désastreux de l’IA.

      109 milliards d’euros en France dans les prochaines années annoncés par Emmanuel Macron, ainsi qu’un projet de méga data center cofinancé par les #Emirats_arabes_unis ; 500 milliards de dollars débloqués pour #Stargate (« la porte des étoiles ») et ses futurs data centers aux États-Unis par #OpenAI et #SoftBank ; 65 milliards de dollars par #Meta, la maison-mère de #Facebook, qui a par ailleurs démoli un centre de données en cours de construction pour le remplacer par un autre adapté aux besoins de l’IA. #Microsoft veut débourser 80 milliards de dollars en divers équipements techniques dans le même objectif.

      Secteur industriel en plein boom ou au bord d’une bulle financière, l’avenir le dira. Mais l’#empreinte_carbone et matérielle de la ruée mondiale vers les #données_numériques est, elle, déjà palpable. Une requête via #ChatGPT consomme dix fois plus d’électricité qu’une recherche Google, selon l’Agence internationale de l’énergie (AIE). Ses expert·es anticipent une explosion de la demande énergétique, équivalente à la consommation actuelle d’un pays comme la Suède ou même l’Allemagne – selon la place du curseur sur la fourchette d’estimation.

      Requêtes énergivores

      Pourquoi ? Deux explications principales semblent faire consensus parmi les spécialistes. D’abord, des raisons strictement matérielles : les #serveurs configurés pour l’#IA_générative utilisent beaucoup plus de courant électrique que leurs prédécesseurs. Notamment parce qu’ils utilisent des puces spécifiques, les #GPU (« # graphics_processing_unit », des #processeurs_graphiques), « qui ont des capacités de #calcul nécessaires à la #technologie d’apprentissage qui permet aux modèles d’IA d’améliorer leur performance, explique Loup Cellard, chercheur associé au médialab de Sciences Po. Une requête sur ChatGPT demande plus de mémoire vive et plus de capacité de #stockage qu’une simple recherche sur un moteur internet ».

      Or, chacun de ces services correspond à des besoins matériels supplémentaires. « Faire une requête ChatGPT pour demander un truc que pourrait donner Google, c’est comme couper votre baguette de pain avec une scie électrique : ça marche mais ça n’est pas la meilleure utilisation que vous pouvez faire des ressources », résume Sylvain Waserman, président de l’Agence de l’environnement et de la maîtrise de l’énergie (Ademe), selon qui « il serait absurde de s’opposer à l’IA et il est irresponsable de ne pas s’intéresser à ses impacts ».

      La phase d’entraînement des machines est plus intense en énergie à l’unité, car elles doivent être beaucoup stimulées pour ramasser et distribuer les données. Mais c’est bien sûr celle des usages qui finalement est la plus énergivore, car le nombre des utilisateurs de la technologie dépasse de loin celui des ingénieur·es qui la développent.

      Ainsi « la migration vers le cloud, l’essor de l’IA générative et les #cryptomonnaies sont les trois principaux vecteurs de la reconfiguration en cours des impacts des centres informatiques » selon l’association GreenIT, dont les rapports font référence. Les data centers, les cryptomonnaies et l’intelligence artificielle ont consommé près de 2 % de l’électricité mondiale en 2022, selon l’AIE. Cela peut sembler dérisoire. Mais la quantité d’électricité qu’ils consomment pourrait doubler en 2026 (par rapport à 2022). Il existe aujourd’hui plus de 8 000 centres de données dans le monde, principalement situés aux États-Unis.

      Les data centers adaptés aux besoins de l’intelligence artificielle consomment 18 % de l’électricité des centres informatiques, alors qu’ils n’en représentent que 2 % de la quantité dans le monde, selon les dernières estimations de GreenIT. Ils émettent près de 4 % de tout le CO2 de la filière numérique, soit déjà plus que l’ensemble des ordinateurs portables en circulation. Selon #France_Datacenter, le lobby du secteur, la demande supplémentaire liée à l’IA générative en France d’ici à dix ans sera de 1 gigawatt, l’équivalent d’un petit réacteur nucléaire.

      Mais les opérateurs de data centers n’aiment pas trop aborder le sujet de leurs impacts environnementaux. Interrogé par Mediapart sur ses besoins en électricité pour soutenir le développement de son activité, #Amazon_Web_Service (#AWS), la branche data center du Gafam, répond par la liste très détaillée de ses investissements et créations d’emplois à venir, sans un mot sur ses besoins énergétiques.

      « Avec l’IA, on pourrait changer d’échelle d’ici à 2030 en termes d’impact environnemental car ses serveurs ne représentent que 2 % des équipements et la demande est très importante pour les années à venir, constate Cécile Diguet, spécialiste des infrastructures numériques. Aujourd’hui, le numérique est un des secteurs qui nous mettent dans le rouge quant au respect des limites planétaires : consommation d’énergie, de ressources en minerais et terres rares, en eau. Les technologies et le numérique prétendent régler des problèmes qu’ils aggravent. Grâce à une IA, on pourra peut-être traiter une base de données plus vite ou mieux gérer la complexité de réseaux d’électricité. Mais en définitive, l’accumulation perpétuelle de matériels et de data centers fait que tous les gains en énergie sont consommés derrière. Le numérique n’est pas source de sobriété. »

      C’est particulièrement vrai concernant les quantités de minerais utilisés pour fabriquer les équipements (centres de données mais aussi puces et autres composants) nécessaires à l’IA – et les déchets en résultant. Ils sont la « colonne vertébrale » de l’intelligence artificielle, selon la chercheuse états-unienne Kate Crawford, qui appelle à créer un nouvel atlas du monde pour visualiser les besoins matériels, financiers et politiques de l’IA, qu’elle décrit comme un système « extractiviste » (Contre-Atlas de l’intelligence artificielle, Zulma, 2024).

      En Chine, l’institut de recherche sur le réseau électrique s’attend à ce que la demande en électricité des centres de données double d’ici à 2030 (par rapport à 2020). Cette consommation est dopée par l’expansion rapide de la 5G et de l’Internet des objets. Le concurrent chinois de ChatGPT, #DeepSeek, a été développé à moindre coût économique et avec moins de consommation énergétique, promettent ses fabricants. Mais personne n’est aujourd’hui en mesure de le vérifier.

      En Europe, le cas de l’#Irlande est spectaculaire : les data centers y représentent 17 % de toute la demande en électricité du pays. C’est autant que toute la consommation du résidentiel en ville. Si tous les projets de centres de données qui ont été approuvés sont menés à terme dans les prochaines années, ils utiliseraient 32 % de tout le courant électrique. Au #Danemark, qui mise aussi sur l’économie des data centers tout en soutenant une initiative européenne de réduction du CO2 du numérique, les centres de données pourraient avaler 20 % de l’électricité en 2026. Est-ce soutenable, alors que le Pacte vert européen fixe aux États l’objectif de réduire d’au moins 38 % leur consommation d’énergie finale d’ici à 2050 ? Pour la Commission européenne, la demande en électricité des data centers pourrait augmenter de 30 % dans l’Union entre 2018 et 2030.

      #Bilan_carbone désastreux

      Surtout que, malgré l’essor des énergies dites renouvelables dans le monde, les sources d’électricité du numérique restent globalement très émettrices en carbone. Apple et Google prétendent être neutres en impact climatique, mais c’est parce qu’ils achètent des crédits de compensation carbone, rappelle la chercheuse Kate Crawford. Elle cite l’exemple de la Chine, où l’industrie des centres de données tire à 73 % son électricité du charbon. En France, l’Ademe a dû revoir à la hausse l’empreinte carbone des data centers à 42 % du secteur du numérique, en intégrant les centres de données à l’étranger que font tourner les utilisateurs nationaux.

      En 2022, l’ensemble du secteur numérique a émis autant de CO2 que le secteur des poids lourds (un peu plus de 4 % de tous les rejets de carbone) dans l’Hexagone. Mais grâce à son électricité décarbonée, la France cherche à se positionner sur le marché des usines à données : « Les data centers en France, ce n’est pas comme aux États-Unis où on utilise du pétrole et du gaz. Ce sont des data centers propres », a prétendu Emmanuel Macron dimanche 9 février.

      Ainsi, entraîner le modèle #GPT3 de la firme OpenAI équivaudrait à conduire 112 voitures à essence pendant un an, selon des scientifiques cités dans AOC par les chercheurs Loup Cellard et Christine Parker. Ils y critiquent pourtant les méthodes d’évaluation des impacts de l’intelligence artificielle. Selon eux, les gains écologiques que permettrait « l’IA verte » sont surestimés et potentiels, alors que les impacts sont immédiats et réels. Les projets de récupération de chaleur pour chauffer une piscine, une résidence, une usine, un hôpital sont multiples et s’affrontent à des obstacles : niveau de température de sortie pas toujours assez haut, risque d’intermittence, etc. – voir aussi le rapport de l’ONG Beyond Fossil Fuels sur le sujet.

      « L’IA n’est pas une activité différente des autres, ajoute Loup Cellard. C’est une industrie capitaliste comme une autre, à laquelle se posent les mêmes questions de responsabilité environnementale, de calcul et de mise en visibilité de ses impacts. »

      À titre d’exemple, de nombreux opérateurs de data centers sont des #fonds_d’investissement_immobiliers (#Real_Estate_Investment_Trust, #Digital_Realty, #Equinix), comme le remarque l’Ademe. La multiplication de leurs constructions ainsi que l’augmentation de leur taille posent des problèmes d’#artificialisation et d’#urbanisme : quelle forme de villes annonce la multiplication des centres de données ? Qui a envie de vivre à côté d’un immeuble de serveurs et de ses stocks de fioul inflammable ? En France, un véritable cluster s’est développé à l’ouest de la #Seine-Saint-Denis (La Courneuve, Saint-Denis, Le Bourget, Dugny) et au nord de #Marseille.
      Parmi les effets déjà tangibles aujourd’hui : la consommation en #eau. Car les data centers doivent être refroidis. Plus ils grossissent et produisent de la chaleur, plus la quantité d’eau nécessaire à baisser leur température est importante. Cette question peut s’avérer critique en période de canicule, signale l’Ademe dans un avis de novembre dernier – en France, ses expert·es estiment qu’en fonction de leur système, ils peuvent consommer 2 litres d’eau par kilowattheure. Au prochain épisode de sécheresse, combien de personnes accepteront que leur data center continue d’être alimenté alors que leur eau potable est coupée ? Et qui décidera ?

      Ainsi #Thames_Water, principale compagnie britannique de distribution d’eau, a demandé aux opérateurs de data centers, notamment à #Google_Cloud et #Oracle, un plan de réduction de leur consommation, jugée excessive à l’été 2022 pendant un pic de chaleur. À Amsterdam, Microsoft a dû présenter un plan drastique de réduction de ses besoins en eau. Aux États-Unis, un des plus gros data centers en fonctionnement est celui de l’agence de renseignement NSA, qui s’étend sur plus de 100 000 mètres carrés dans l’Utah, une terre particulièrement exposée à la sécheresse. Il avale à lui tout seul plus de la moitié de la consommation de l’eau de l’État, autour de 60 %, selon une étude.

      Ouvrir le capot des IA ?

      Après avoir longtemps refusé de révéler la quantité de liquide absorbée par son data center, la NSA a finalement fait savoir en 2022 qu’il avait besoin de près de 90 millions de litres d’eau – soit 35 fois la piscine olympique de Paris 2024 – chaque mois. L’Utah mise sur l’industrie des centres de données et leur vend son eau à des prix battant toute concurrence. Les méga hangars à serveurs s’y multiplient – il y en a deux douzaines aujourd’hui. Mais le Grand Lac salé s’en ressent, selon les défenseurs de l’environnement qui s’inquiètent de le voir s’assécher. En novembre 2022, il a atteint son étiage le plus bas, au point de mettre en danger son écosystème, et notamment ses populations de crustacés, dont se nourrissent des millions d’oiseaux migrateurs.

      En France, l’Ademe estime que les data centers pourraient utiliser 6 % de l’électricité en 2050 – aujourd’hui, le numérique en dépense 11 %. Selon RTE, le gestionnaire des réseaux, les data centers en France pourraient tripler leur consommation d’électricité d’ici à 2035, passant d’environ 10 térawattheures aujourd’hui à 28, selon leur plus haute projection. Les demandes de raccordement de nouveaux centres de grande taille sont en très forte hausse depuis quatre à cinq ans, note l’Ademe, et dépassent de 8 gigawatts – soit plus de quatre réacteurs EPR.

      Son président, Sylvain Waserman, veut défendre la thèse « d’une IA française et européenne qui pourrait trouver un avantage concurrentiel en étant plus respectueuse des ressources ». Il estime que ce peut être une piste de différenciation face à des Gafam « qui jamais n’accepteront qu’on ouvre le capot pour étudier leur impact ».

      En attendant, le gouvernement vient de désigner 35 sites privilégiés pour y construire de nouveaux data centers : simplification des procédures administratives, possible dérogation aux obligations de débat public, réduction des délais de recours juridiques… Sans savoir si les industriels accepteront de communiquer sur leur empreinte énergétique, ils bénéficient d’ores et déjà d’une belle offre de dérégulation.

      https://www.mediapart.fr/journal/ecologie/100225/ia-un-puits-sans-fond-de-depenses-en-energie-en-eau-et-en-co2

    • #Antonio_Casilli : « L’intelligence artificielle est l’une des industries extractives de notre époque »

      Professeur de sociologie à Télécom Paris, à l’Institut Polytechnique de Paris, il est l’auteur d’En attendant les robots, enquête sur le travail du clic (Seuil, 2019), dont une version augmentée vient de paraître en anglais aux éditions University of Chicago Press. Antonio Casilli est aussi co-auteur du documentaire Les Sacrifiés de l’IA, qui se penche sur les conditions de production des technologies d’IA utilisées en Occident, et sera diffusé sur France 2 le 11 février.

      À cette occasion, et en parallèle du sommet pour l’action sur l’intelligence artificielle, Next l’a rencontré.

      (#paywall)

      https://next.ink/169487/antonio-casilli-lintelligence-artificielle-est-lune-des-industries-extractives

  • France Travail : le gouvernement crée un méga fichier de données sociales qui inquiète la CNIL - Next
    https://next.ink/164426/france-travail-le-gouvernement-cree-un-mega-fichier-de-donnees-sociales-qui-in

    Le 1er janvier, le gouvernement a publié un décret autorisant #France_Travail à rassembler énormément plus de #données que l’institution ne le faisait auparavant lorsqu’elle s’appelait encore Pôle Emploi. La CNIL, formellement consultée, n’a pas eu le temps de se prononcer réellement sur le sujet. Dans son avis, elle s’en inquiète et n’est pas sûre que « l’ensemble des traitements concernés » soit légal. À Next, le commissaire de la CNIL et député Modem Philippe Latombe exprime ses craintes par rapport à l’utilisation du numéro d’inscription au répertoire (NIR) et à d’éventuelles fuites de données.

    • Dans les données que rassemblera le Système d’information de France Travail, pourront se retrouver des informations concernant le RSA, la prime d’activité, ainsi que des données relatives aux difficultés particulières rencontrées pour accéder à l’emploi, à la scolarité, au parcours de formation et au niveau de qualification et diplômes ainsi qu’aux compétences ou même aux « capacités en lecture ».

      Mais le décret permet aussi à France Travail de rassembler et traiter des données que sont pêle-mêle l’Allocation aux adultes handicapés (AAH), l’état de santé des demandeurs d’emploi, mais aussi des données d’identification, de nationalité et titre de séjour, des données d’ordres économiques et financiers, fiscales, bancaires, la situation pénitentiaire, les données relatives au compte personnel de formation, les données relatives aux mesures de tutelle, de curatelle ou d’habilitation familiale, celles relatives au diagnostic, les contacts de la personne en charge de la protection juridique, données relatives à la situation familiale ou le type et l’origine du handicap. Et nous n’avons pas fait la liste exhaustive des données à caractère personnel que peut maintenant récolter France Travail.

      Suite derrière #paywall

    • Devinette dans les commentaires :

      Donc après le désastre de la fuite colossale de 2024, le pouvoir a décidé de [*] :

      A. mettre les moyens pour sécuriser le système selon l’état de l’art
      B. faire en sorte que la prochaine fuite soit encore plus catastrophique
      C. faire des économies, les hackers s’occupent des sauvegardes

  • ACLED Conflict Alert System (CAST)

    The ACLED Conflict Alert System (CAST) is a conflict forecasting tool that predicts political violence events up to six months in the future for every country in the world. Updated predictions are released each month for the following six months, alongside accuracy metrics for previous forecasts.

    #conflits
    #guerre
    #violence
    #données

  • Academia in a stranglehold

    Academic publishers’ most valuable asset used to be their journals. Now, it’s the data they collect from researchers and then sell. That is extremely concerning, a growing group of Groningen researchers feels. ‘They control every part of the process and register every action you take.’

    When UG philosopher Titus Stahl is mulling over a new research topic, he has a range of tools available to help him get started. He could use academic search engine Scopus, for example, to point him to articles he could read online or download. He might also take notes using Mendeley, the useful software tool that helps you keep track of sources and references.

    If he then writes a grant proposal to get funding, there’s a good chance that the people assessing it use SciVal – software that analyses research trends, but also contains individual researchers’ citation and publication data.

    In the meantime, he could discuss his work on SSRN, a social platform used to share and peer-review early-stage research. And ultimately, of course, he’ll publish it in an open access magazine for which the university has paid article processing fees, or APCs, after which others will read it – at home, through their libraries, or again using Scopus.

    Then, finally, he will enter his article in Pure, the database the university uses to register all research done at the UG. His profile might change to reflect he has done research on a new topic. Affiliations may be added, since his network has changed too, so everyone can see who he collaborates with and what his strengths are.

    It’s all very streamlined and it all works beautifully. However, it doesn’t seem all that great anymore when you realise that every tool Stahl has been using, every platform on which he publishes, is owned by publishing mogul Elsevier. And Elsevier not only provides tools, it also collects user data. It logs everything Stahl does, every keystroke.

    ‘They know what you are working on, they know what you are submitting, they know the results of your peer reviews’, Stahl says. ‘They control every part of the process and register every action you take.’
    Everything is recorded

    And that gives them far more information than you might realise. When Eiko Fried, a psychologist from the University of Leiden, asked Elsevier for his personal data in December 2021, he received an email with hundreds of thousands of data points, going back many years.

    He discovered that Elsevier knew his name, his affiliations and his research. That his reviews had been registered, as well as the requests for peer review he had declined. Elsevier kept track of his IP-addresses – leading back to his home – his private telephone numbers, and the moments he logged in, which showed exactly when he worked and when he was on vacation. There were websites he visited, articles he had downloaded or just viewed online. Every click, every reference was recorded.

    Fried’s blog posts about this came as a shock and a revelation to Stahl. ‘It’s a long-term danger to academic freedom’, he says. ‘They control the academic process with an infrastructure that serves their interests, not ours. And they use the collected data to provide analytics services to whoever pays for them.’

    Stahl is one of a growing group of researchers inside and outside the University of Groningen who are concerned about the situation. He finds Oskar Gstrein on his side. ‘There is this ingrained power imbalance between the universities and the publishers’, says the data autonomy specialist with Campus Fryslân and the Jantina Tammes School of Digital Society, Technology and AI. ‘They own the journals people want to get into. And now they have taken over the whole publishing sphere.’

    In a recently published call for action, the Young Academy Groningen (YAG) and the Open Science Community Groningen, too, sounded the alarm. ‘It is time to formulate a long-term vision for a sustainable, independent higher education system’, they wrote. ‘We not only endorse this ambition but call on our university to reclaim ownership over our research output.’
    New business model

    They have reason to worry. Big publishers like Elsevier make billions of euros a year. Historically by publishing academic articles, but they have recently changed their business model. Now, they sell data connected to academic publishing. And that is ‘insanely profitable’, Stahl says.

    Profits of Elsevier’s parent company RELX rose to 10 percent in 2023 – 2 billion euros on a revenue of 10 billion. ‘Article submissions returned to strong growth, with pay-to-publish open-access articles continuing to grow particularly strongly’, RELX reported in February this year.

    Elsevier’s Erik Engstrom was the third highest paid CEO in the Netherlands between 2017 and 2020, earning over 30 million. Only the CEOs of Shell and another scientific publisher, Wolters Kluwer, earned more.

    Only a decade ago, it looked as if big publishers’ hold on academia was weakening. Universities and the Dutch government were done with first funding their research with public money, offering their papers for free to publishers like Elsevier (The Lancet, Cell), Springer (Nature) or Wiley (Advanced Materials), editing and peer reviewing those papers for free and then having to pay insane amounts of subscription fees to make those same papers available to their researchers again.

    They moved towards open access and as a result, 97 percent of the publications in Groningen is now published open access. ‘Their traditional business model no longer worked’, says Gstrein. ‘So publishers had to reinvent themselves.’
    Gold open access

    And that is exactly what they did, helped by a Dutch government that suggested ‘gold open access’ as the norm. ‘It’s undoubtedly linked to the fact that many of these publishers, such as Elsevier and Kluwer, have Dutch roots’, says Ane van der Leij, head of research support at the UB.

    ‘Gold’ means you don’t make the whole publishing process free – that would be the diamond option. Instead, a university pays APCs up front for its researchers, and in exchange publishers make their articles available to everyone.

    That’s great for the general public, which can now read those articles for free. But it’s not so great for the universities that still provide research papers and edit academic articles without any payment. ‘And the APCs are high’, Stahl says. ‘In some cases, I estimate there’s a profit margin of 75 percent.’

    Not all magazines are open access, either. Most of the traditional journals are a hybrid now – the content for which APCs have been paid are open access; the rest is still behind a paywall. ‘Unfortunately “hybrid” has become the new status quo for most of these publishers’ journals, and it has become a very profitable business model’, Van der Leij says.
    Package deals

    These days, publishers negotiate ‘read and publish’ package deals for their titles, which have become around 20 percent more expensive in five years. ‘Taking into account an average inflation rate of 3 percent per year over this period, that amounts to a price increase of approximately 12.6 percent’, says Van der Leij.

    Elsevier has received over 16 million euros in 2024 for their deal with umbrella organisation Universities of the Netherlands. Wily gets almost 5 million, Springer 3.6 million.

    The increase is not the same for all publishers, Van der Leij stresses, and the packages themselves also vary, making it difficult to compare. ‘On top of that, it’s become increasingly difficult to figure out which parts are “read” and which ones are “publish”.’

    Also telling: the maximum number of prepaid publications is reached sooner every year, because universities get fewer publications for their money. ‘Four years ago, we would be sending out our emails that we’d reached the cap halfway through November. Three years ago, we did so in early November. This year, it was at the end of October’, says Van der Leij.
    Commercialised research

    That’s not the biggest issue, though. What is worse is the other part of Elsevier’s business model, which they came up with when they realised they needed other ways to keep making money. And the hottest commodity they could think of was data.

    ‘The entire infrastructure that science builds on is commercialised’, says YAG chairperson Lukas Linsi. ‘They effectively turn science into shareholder returns and dividend payouts, and it’s all public money.’

    Pure, which showcases the research for almost all Dutch universities, used to be an independent Danish startup, but was bought by Elsevier in 2012. The formerly open platform Mendeley was acquired in 2013. SSRN in 2016. In 2017 Elsevier bought bepress, a repository used by six hundred academic institutes. ‘It has given them real time data access’, Gstrein says.

    Publishing is no longer the main focus for RELX and its competitors; instead, they have become data brokers. They sell data to insurance companies for risk analysis, to banks for fraud detection, to universities to assess their performance, and, especially egregious, to the US Immigration Service to target illegal immigrants.
    Less dependent

    Many researchers are worried by this. ‘In the Netherlands, universities tend to be a bit optimistic regarding these companies’, Stahl feels. After all, universities have in the past made plans to develop ‘professional services’ together with Elsevier. ‘They just don’t seem to see the danger.’

    In Germany and France, there is much more awareness about these issues. There, universities are less dependent on the big publishers, or are working to move away from them. ‘If some private parties have access to all this data, then that is a long-term threat to academic freedom. We have to do something about it. We need our own infrastructure’, Stahl says.

    Per the contracts, the publishers aren’t allowed to share data. ‘There is the data processing agreement’, explains Marijke Folgering, head of the UB’s development & innovation department. That’s a legally required document stating how data will be processed. ‘They’re not allowed to just use our data. I’m sure they can find ways to do so anyway, but we also enter into these contracts on a trust basis. If they do abuse it, they hopefully hurt themselves as well.’
    Critical

    Researcher Taichi Ochi with the Open Science Community Groningen has his doubts about their trustworthiness, though. ‘We need to move away from them, or we risk detrimental effects’, he says.

    Linsi points to the deal that academic publisher Taylor and Francis made: they sold the research published in their three thousand academic journals to Microsoft for 10 million dollars, to train their AI models. ‘This is happening now!’

    Folgering and Van der Leij with the UB also worry about the seemingly unending stream of data that is flowing towards the publishers. ‘There are currently no indications that the system is being abused’, says Van der Leij, ‘but we’re getting increasingly concerned.’

    ‘We’re definitely critical of what they’re doing’, Folgering agrees. ‘We’re exploring our options. Several German universities have gone in a different direction. But there are limits to what we can do. We simply don’t have that many developers.’

    The problem, of course, is that both researchers and university management want convenience. They want their publications in these publishers’ prestigious distribution channels. They want their tools and software to work quickly, and it’s all the better if these are available at a relatively low cost. ‘But we just don’t consider what that means in the long run. People underestimate how little choice we still have’, Gstrein says.
    Long-standing reputation

    The researchers don’t have an easy solution on hand. ‘If you want to move ahead in your career, you’re dependent on these companies’, Linsi realises. ‘They don’t decide what is published in their journals, but still, it’s their brands that are really important if you want to move up.’

    Diamond open access journals – like the UG’s own University of Groningen Press, founded in 2015 – may be a solution in the long term, but at this point their reputation just isn’t good enough yet, compared to journals with a long-standing reputation and impact factor.

    The tools the publishers provide do work very well, Linsi admits. Repositories in for example Germany – where universities are a lot less dependent on the big publishers – aren’t nearly as ‘attractive’ as the UG’s Pure.

    And there’s the matter of safety too. Are universities able to build alternatives that are safe and that won’t be vulnerable to hacks? ‘In practice, this is quite difficult’, Linsi says. ‘But other countries show that there is a way back.’
    Alternatives

    The UG could start by using alternatives when possible, he explains. Zotero instead of Mendeley, Firefox instead of Google Chrome. ‘There are alternatives for almost every app we use.’

    And it could – and should – find an alternative for Pure. ‘It’s a good first step’, Linsi feels. ‘It’s relatively easy and it is tangible.’

    In fact, Van der Leij says, the UG is currently working on its own data warehouse that would hold all the UG publications’ data and metadata. ‘It might allow us to stop using Pure and keep a hold of our data.’

    But it would be even better if Dutch – or even European – universities worked together on projects like these, to make sure there’s enough funding and that it is done right. In the long run, Linsi believes, it will probably be cheaper than paying huge sums of money to commercial providers.

    ‘We must understand our own worth’, agrees Taichi Ochi. ‘With the cost of publishing ever increasing, it also impacts how much money we can spend on other activities. We need to move away from a model that is draining money.’

    https://ukrant.nl/magazine/elseviers-stranglehold-on-academia-how-publishers-get-rich-from-our-data

    #science #recherche #université #données #édition_scientifique #publications #publications_scientifiques #Elsevier #business #données_personnelles #Stahl #RELX #Springer #Wiley #Gold_open_access

    –-

    ajouté à la métaliste sur la #publication_scientifique :
    https://seenthis.net/messages/1036396

  • Xavier m’écrit

    Cette attaque a entrainé un accès non autorisé à une partie des données personnelles associées à votre compte abonné : nom, prénom, adresses email et postale, date et lieu de naissance, numéro de téléphone, identifiant abonné et données contractuelles (type d’offre souscrite, date de souscription, abonnement actif ou non).

    #free #sécurité #informatique #données_personnelles #vol_de_données

    Ça me fait toujours marrer quand derrière on te baratine que la CNIL a été prévenue, ce que j’apprécie surtout c’est qu’avec les données de plusieurs millions d’abonné·es free, la peine encourue pour revendre nos données ben c’est juste une goutte.

    Cette attaque a été notifiée à la Commission nationale de l’informatique et des libertés (CNIL) et à l’Agence nationale de la sécurité des systèmes d’information (ANSSI). Une plainte pénale a également été déposée auprès du procureur de la République. L’auteur de ce délit s’expose à une peine de 5 ans d’emprisonnement et de 150 000 € d’amende.

    Merci Xavier, je n’oublie pas ton ami Emmanuel qui a refilé nos données médicales à Microsoft évidemment aussi bien sécurisées que celles de tes abonné·es.

    • 150 000 € pour 19 millions d’abonné·es, pour la CNIL on vaut pas grand chose, ça fait moins de 0,008 € par abonné, même pas un centime.

    • Actuellement grande braderie des données personnelles des clients et des usagers : Boulanger, Truffaut, Cultura, SFR, l’Assurance retraite ou encore Meilleurtaux

      Comment ça vous n’avez pas encore votre carte de fidélité avec vos listes d’achats pour un beau profilage client ?

    • Hello. En France, il y a une grosse parano sur la communication des IBAN que j’ai déjà remarquée dans différentes circonstances. Je n’arrive pas trop à piger pourquoi. Ici, on donne son numéro pour un peu tout, à des potes pour qu’ils versent de l’argent, les asso ou les gens le mette sur leur site etc... Parce qu’on ne peut que verser de l’argent dessus et qu’il n’y a pas de chéquier ici (qui est considéré comme archaïque).

      Dans le cas de cette fuite données, à quoi peuvent-ils servir ? Il me semble que les données d’identité (date de naissance, nom, adresse postale et mail) sont des données plus sensibles, non ?

    • « Mises en vente par le pirate, les données personnelles de 19,2 millions de clients de l’opérateur auraient été achetées pour 175.000 dollars » « Le fichier de données clients de l’opérateur téléphonique aurait été acheté pour la somme de 175.000 dollars (environ 160.000 euros). » C’est tout bénef.

  • LinkedIn condamnée à 310 millions d’euros suite à notre plainte collective
    https://www.laquadrature.net/2024/10/25/linkedin-condamnee-a-310-millions-deuros-suite-a-notre-plainte-collect

    Après Google et Amazon, c’est au tour de Microsoft d’être condamnée pour non respect du droit des #Données_personnelles. Hier, l’autorité de protection des données irlandaise a adressé à Microsoft une amende de 310 millions…

  • Widerspruch gegen die elektronische Patientenakte (ePA)
    https://widerspruch-epa.de

    Voilà une possibilité de prévenir l’abus de tes informations personnelles médicales. A partir de janvier 2025 les assurances maladie allemandes s’autorisent à enrégistrer tes données médicales sur leurs serveur et de les revendre. Jusqu’à présent ces données existent seulement chez les médecins individuels et dans tes propres répertoires. Si tu préfères que cela ne change pas il faut que tu fasses opposition à l’enrégistrement central.

    Ce site web associatif (Patientenrechte und Datenschutz e.V.) t’aide à écrire la lettre nécessaire. Attention quand même à remplir leur formulaires avec des donnés factices. Tu les remplaceras avant d’envoyer la lettte d’opposition à ton assurance.

    Willkommen auf unserer Webseite! Wir sind ein Bündnis, welches sich für den Schutz Ihrer persönlichen medizinischen Daten einsetzt. Unser Ziel ist es, dass Sie die Kontrolle über Ihre Daten behalten. Deshalb bieten wir unseren Widerspruchs-Generator für ein opt-out bei der elektronischen Patientenakte (ePA) an.

    2021 war die ePA, die auf zentralen Servern gespeichert wird, als freiwillige Möglichkeit eingeführt worden. Die Nachfrage danach war gering. Ab Januar 2025 erhalten alle gesetzlich Versicherten1, die nicht widersprechen, automatisch eine solche ePA. Außerdem sind alle Behandelnden verpflichtet, die ePA mit dem Behandlungsdaten ihrer Patienten zu befüllen.

    Die ePA wird als wichtiges Instrument zur Verbesserung der medizinischen Versorgung beworben. Sie hat aber mehrere gravierende Schwächen, die aus unserer Sicht einen Widerspruch notwendig machen, um die äußerst sensiblen persönlichen medizinischen Daten zu schützen.

    Hier kommt der Widerspruch (opt-out) ins Spiel. Opt-out bedeutet, dass Sie Ihre Daten nicht in der ePA speichern lassen. Unser Generator hilft Ihnen dabei. Er ist einfach zu bedienen und erfordert nur wenige Schritte.

    Der Widerspruch (opt-out) beeinträchtigt nicht Ihre medizinische Versorgung. Ihre Ärzte und Psychotherapeuten speichern weiterhin die notwendigen Informationen in ihren praxisinternen Akten, um Ihnen die bestmögliche Diagnose und Unterstützung zu bieten.

    Wir hoffen, dass unser Service Ihnen hilft, eine informierte Entscheidung über Ihre medizinischen Daten zu treffen.

    Vielen Dank, dass Sie uns Ihr Vertrauen schenken.

    Weitere Informationen zur ePA und zum Widerspruch finden Sie unter “Häufig gestellte Fragen (FAQ)”.

    #Allemagne #vie_privée #données #iatrocratie

  • The world’s rivers faced the driest year in three decades in 2023, the UN weather agency says

    The U.N. weather agency is reporting that 2023 was the driest year in more than three decades for the world’s rivers, as the record-hot year underpinned a drying up of water flows and contributed to prolonged droughts in some places.

    The World Meteorological Organization also says glaciers that feed rivers in many countries suffered the largest loss of mass in the last five decades, warning that ice melt can threaten long-term water security for millions of people globally.

    “Water is the canary in the coalmine of climate change. We receive distress signals in the form of increasingly extreme rainfall, floods and droughts which wreak a heavy toll on lives, ecosystems and economies,” said WMO Secretary-General Celeste Saulo, releasing the report on Monday.

    She said rising temperatures had in part led the hydrological cycle to become “more erratic and unpredictable” in ways that can produce “either too much or too little water” through both droughts and floods.

    The “State of Global Water Resources 2023” report covers rivers and also lakes, reservoirs, groundwater, soil moisture, terrestrial water storage, snow cover and glaciers, and the evaporation of water from land and plants.

    The weather agency, citing figures from UN Water, says some 3.6 billion people face inadequate access to water for at least one month a year — and that figure is expected to rise to 5 billion by 2050. WMO says 70% of all the water that humans draw from the hydrological systems goes into agriculture.

    The world faced the hottest year on record in 2023, and the summer of this year was also the hottest summer ever — raising warning signs for a possible new annual record in 2024.

    “In the (last) 33 years of data, we had never such a large area around the world which was under such dry conditions,” said Stefan Uhlenbrook, director of hydrology, water and cryosphere at WMO.

    The report said the southern United States, Central America and South American countries Argentina, Brazil, Peru and Uruguay faced widespread drought conditions and “the lowest water levels ever observed in Amazon and in Lake Titicaca,” on the border between Peru and Bolivia.

    The Mississippi River basin also experienced record-low water levels, the report said. WMO said half of the world faced dry river flow conditions last year.

    The data for 2024 isn’t in yet, but Uhlenbrook said the extremely hot summer is “very likely” to translate into low river flows this year, and “in many parts of the world, we expect more water scarcity.”

    Low-water conditions have had an impact on river navigation in places like Brazil and a food crisis in Zimbabwe and other parts of southern Africa this year.

    WMO called for improvements in data collection and sharing to help clear up the real picture for water resources and help countries and communities take action in response.

    https://apnews.com/article/water-united-nations-world-meteorological-organization-86183afa4d917fe9777f7

    #rivières #sécheresse #rapport #statistiques #données #monde

  • #Data_center emissions probably 662% higher than big tech claims. Can it keep up the ruse?

    Emissions from in-house data centers of #Google, #Microsoft, #Meta and #Apple may be 7.62 times higher than official tally.

    Big tech has made some big claims about greenhouse gas emissions in recent years. But as the rise of artificial intelligence creates ever bigger energy demands, it’s getting hard for the industry to hide the true costs of the data centers powering the tech revolution.

    According to a Guardian analysis, from 2020 to 2022 the real emissions from the “in-house” or company-owned data centers of Google, Microsoft, Meta and Apple are probably about 662% – or 7.62 times – higher than officially reported.

    Amazon is the largest emitter of the big five tech companies by a mile – the emissions of the second-largest emitter, Apple, were less than half of Amazon’s in 2022. However, Amazon has been kept out of the calculation above because its differing business model makes it difficult to isolate data center-specific emissions figures for the company.

    As energy demands for these data centers grow, many are worried that carbon emissions will, too. The International Energy Agency stated that data centers already accounted for 1% to 1.5% of global electricity consumption in 2022 – and that was before the AI boom began with ChatGPT’s launch at the end of that year.

    AI is far more energy-intensive on data centers than typical cloud-based applications. According to Goldman Sachs, a ChatGPT query needs nearly 10 times as much electricity to process as a Google search, and data center power demand will grow 160% by 2030. Goldman competitor Morgan Stanley’s research has made similar findings, projecting data center emissions globally to accumulate to 2.5bn metric tons of CO2 equivalent by 2030.

    In the meantime, all five tech companies have claimed carbon neutrality, though Google dropped the label last year as it stepped up its carbon accounting standards. Amazon is the most recent company to do so, claiming in July that it met its goal seven years early, and that it had implemented a gross emissions cut of 3%.

    “It’s down to creative accounting,” explained a representative from Amazon Employees for Climate Justice, an advocacy group composed of current Amazon employees who are dissatisfied with their employer’s action on climate. “Amazon – despite all the PR and propaganda that you’re seeing about their solar farms, about their electric vans – is expanding its fossil fuel use, whether it’s in data centers or whether it’s in diesel trucks.”
    A misguided metric

    The most important tools in this “creative accounting” when it comes to data centers are renewable energy certificates, or Recs. These are certificates that a company purchases to show it is buying renewable energy-generated electricity to match a portion of its electricity consumption – the catch, though, is that the renewable energy in question doesn’t need to be consumed by a company’s facilities. Rather, the site of production can be anywhere from one town over to an ocean away.

    Recs are used to calculate “market-based” emissions, or the official emissions figures used by the firms. When Recs and offsets are left out of the equation, we get “location-based emissions” – the actual emissions generated from the area where the data is being processed.

    The trend in those emissions is worrying. If these five companies were one country, the sum of their “location-based” emissions in 2022 would rank them as the 33rd highest-emitting country, behind the Philippines and above Algeria.

    Many data center industry experts also recognize that location-based metrics are more honest than the official, market-based numbers reported.

    “Location-based [accounting] gives an accurate picture of the emissions associated with the energy that’s actually being consumed to run the data center. And Uptime’s view is that it’s the right metric,” said Jay Dietrich, the research director of sustainability at Uptime Institute, a leading data center advisory and research organization.

    Nevertheless, Greenhouse Gas (GHG) Protocol, a carbon accounting oversight body, allows Recs to be used in official reporting, though the extent to which they should be allowed remains controversial between tech companies and has led to a lobbying battle over GHG Protocol’s rule-making process between two factions.

    On one side there is the Emissions First Partnership, spearheaded by Amazon and Meta. It aims to keep Recs in the accounting process regardless of their geographic origins. In practice, this is only a slightly looser interpretation of what GHG Protocol already permits.

    The opposing faction, headed by Google and Microsoft, argues that there needs to be time-based and location-based matching of renewable production and energy consumption for data centers. Google calls this its 24/7 goal, or its goal to have all of its facilities run on renewable energy 24 hours a day, seven days a week by 2030. Microsoft calls it its 100/100/0 goal, or its goal to have all its facilities running on 100% carbon-free energy 100% of the time, making zero carbon-based energy purchases by 2030.

    Google has already phased out its Rec use and Microsoft aims to do the same with low-quality “unbundled” (non location-specific) Recs by 2030.

    Academics and carbon management industry leaders alike are also against the GHG Protocol’s permissiveness on Recs. In an open letter from 2015, more than 50 such individuals argued that “it should be a bedrock principle of GHG accounting that no company be allowed to report a reduction in its GHG footprint for an action that results in no change in overall GHG emissions. Yet this is precisely what can happen under the guidance given the contractual/Rec-based reporting method.”

    To GHG Protocol’s credit, the organization does ask companies to report location-based figures alongside their Rec-based figures. Despite that, no company includes both location-based and market-based metrics for all three subcategories of emissions in the bodies of their annual environmental reports.

    In fact, location-based numbers are only directly reported (that is, not hidden in third-party assurance statements or in footnotes) by two companies – Google and Meta. And those two firms only include those figures for one subtype of emissions: scope 2, or the indirect emissions companies cause by purchasing energy from utilities and large-scale generators.
    In-house data centers

    Scope 2 is the category that includes the majority of the emissions that come from in-house data center operations, as it concerns the emissions associated with purchased energy – mainly, electricity.

    Data centers should also make up a majority of overall scope 2 emissions for each company except Amazon, given that the other sources of scope 2 emissions for these companies stem from the electricity consumed by firms’ offices and retail spaces – operations that are relatively small and not carbon-intensive. Amazon has one other carbon-intensive business vertical to account for in its scope 2 emissions: its warehouses and e-commerce logistics.

    For the firms that give data center-specific data – Meta and Microsoft – this holds true: data centers made up 100% of Meta’s market-based (official) scope 2 emissions and 97.4% of its location-based emissions. For Microsoft, those numbers were 97.4% and 95.6%, respectively.

    The huge differences in location-based and official scope 2 emissions numbers showcase just how carbon intensive data centers really are, and how deceptive firms’ official emissions numbers can be. Meta, for example, reports its official scope 2 emissions for 2022 as 273 metric tons CO2 equivalent – all of that attributable to data centers. Under the location-based accounting system, that number jumps to more than 3.8m metric tons of CO2 equivalent for data centers alone – a more than 19,000 times increase.

    A similar result can be seen with Microsoft. The firm reported its official data center-related emissions for 2022 as 280,782 metric tons CO2 equivalent. Under a location-based accounting method, that number jumps to 6.1m metric tons CO2 equivalent. That’s a nearly 22 times increase.

    While Meta’s reporting gap is more egregious, both firms’ location-based emissions are higher because they undercount their data center emissions specifically, with 97.4% of the gap between Meta’s location-based and official scope 2 number in 2022 being unreported data center-related emissions, and 95.55% of Microsoft’s.

    Specific data center-related emissions numbers aren’t available for the rest of the firms. However, given that Google and Apple have similar scope 2 business models to Meta and Microsoft, it is likely that the multiple on how much higher their location-based data center emissions are would be similar to the multiple on how much higher their overall location-based scope 2 emissions are.

    In total, the sum of location-based emissions in this category between 2020 and 2022 was at least 275% higher (or 3.75 times) than the sum of their official figures. Amazon did not provide the Guardian with location-based scope 2 figures for 2020 and 2021, so its official (and probably much lower) numbers were used for this calculation for those years.
    Third-party data centers

    Big tech companies also rent a large portion of their data center capacity from third-party data center operators (or “colocation” data centers). According to the Synergy Research Group, large tech companies (or “hyperscalers”) represented 37% of worldwide data center capacity in 2022, with half of that capacity coming through third-party contracts. While this group includes companies other than Google, Amazon, Meta, Microsoft and Apple, it gives an idea of the extent of these firms’ activities with third-party data centers.

    Those emissions should theoretically fall under scope 3, all emissions a firm is responsible for that can’t be attributed to the fuel or electricity it consumes.

    When it comes to a big tech firm’s operations, this would encapsulate everything from the manufacturing processes of the hardware it sells (like the iPhone or Kindle) to the emissions from employees’ cars during their commutes to the office.

    When it comes to data centers, scope 3 emissions include the carbon emitted from the construction of in-house data centers, as well as the carbon emitted during the manufacturing process of the equipment used inside those in-house data centers. It may also include those emissions as well as the electricity-related emissions of third-party data centers that are partnered with.

    However, whether or not these emissions are fully included in reports is almost impossible to prove. “Scope 3 emissions are hugely uncertain,” said Dietrich. “This area is a mess just in terms of accounting.”

    According to Dietrich, some third-party data center operators put their energy-related emissions in their own scope 2 reporting, so those who rent from them can put those emissions into their scope 3. Other third-party data center operators put energy-related emissions into their scope 3 emissions, expecting their tenants to report those emissions in their own scope 2 reporting.

    Additionally, all firms use market-based metrics for these scope 3 numbers, which means third-party data center emissions are also undercounted in official figures.

    Of the firms that report their location-based scope 3 emissions in the footnotes, only Apple has a large gap between its official scope 3 figure and its location-based scope 3 figure.

    This is the only sizable reporting gap for a firm that is not data center-related – the majority of Apple’s scope 3 gap is due to Recs being applied towards emissions associated with the manufacturing of hardware (such as the iPhone).

    Apple does not include transmission and distribution losses or third-party cloud contracts in its location-based scope 3. It only includes those figures in its market-based numbers, under which its third party cloud contracts report zero emissions (offset by Recs). Therefore in both of Apple’s total emissions figures – location-based and market-based – the actual emissions associated with their third party data center contracts are nowhere to be found.”

    .
    2025 and beyond

    Even though big tech hides these emissions, they are due to keep rising. Data centers’ electricity demand is projected to double by 2030 due to the additional load that artificial intelligence poses, according to the Electric Power Research Institute.

    Google and Microsoft both blamed AI for their recent upticks in market-based emissions.

    “The relative contribution of AI computing loads to Google’s data centers, as I understood it when I left [in 2022], was relatively modest,” said Chris Taylor, current CEO of utility storage firm Gridstor and former site lead for Google’s data center energy strategy unit. “Two years ago, [AI] was not the main thing that we were worried about, at least on the energy team.”

    Taylor explained that most of the growth that he saw in data centers while at Google was attributable to growth in Google Cloud, as most enterprises were moving their IT tasks to the firm’s cloud servers.

    Whether today’s power grids can withstand the growing energy demands of AI is uncertain. One industry leader – Marc Ganzi, the CEO of DigitalBridge, a private equity firm that owns two of the world’s largest third-party data center operators – has gone as far as to say that the data center sector may run out of power within the next two years.

    And as grid interconnection backlogs continue to pile up worldwide, it may be nearly impossible for even the most well intentioned of companies to get new renewable energy production capacity online in time to meet that demand.

    https://www.theguardian.com/technology/2024/sep/15/data-center-gas-emissions-tech
    #données #émissions #mensonge #ChatGPT #AI #IA #intelligence_artificielle #CO2 #émissions_de_CO2 #centre_de_données

    • AI’s emissions are about to skyrocket even further

      Data center emissions have tripled since 2018. As more complex AI models like OpenAI’s Sora see broad release, those figures will likely go through the roof.

      It’s no secret that the current AI boom is using up immense amounts of energy. Now we have a better idea of how much.

      A new paper, from teams at the Harvard T.H. Chan School of Public Health and UCLA Fielding School of Public Health, examined 2,132 data centers operating in the United States (78% of all facilities in the country). These facilities—essentially buildings filled to the brim with rows of servers—are where AI models get trained, and they also get “pinged” every time we send a request through models like ChatGPT. They require huge amounts of energy both to power the servers and to keep them cool.

      Since 2018, carbon emissions from data centers in the US have tripled. For the 12 months ending August 2024, data centers were responsible for 105 million metric tons of CO2, accounting for 2.18% of national emissions (for comparison, domestic commercial airlines are responsible for about 131 million metric tons). About 4.59% of all the energy used in the US goes toward data centers, a figure that’s doubled since 2018.

      It’s difficult to put a number on how much AI in particular, which has been booming since ChatGPT launched in November 2022, is responsible for this surge. That’s because data centers process lots of different types of data—in addition to training or pinging AI models, they do everything from hosting websites to storing your photos in the cloud. However, the researchers say, AI’s share is certainly growing rapidly as nearly every segment of the economy attempts to adopt the technology.

      “It’s a pretty big surge,” says Eric Gimon, a senior fellow at the think tank Energy Innovation, who was not involved in the research. “There’s a lot of breathless analysis about how quickly this exponential growth could go. But it’s still early days for the business in terms of figuring out efficiencies, or different kinds of chips.”

      Notably, the sources for all this power are particularly “dirty.” Since so many data centers are located in coal-producing regions, like Virginia, the “carbon intensity” of the energy they use is 48% higher than the national average. The paper, which was published on arXiv and has not yet been peer-reviewed, found that 95% of data centers in the US are built in places with sources of electricity that are dirtier than the national average.

      There are causes other than simply being located in coal country, says Falco Bargagli-Stoffi, an author of the paper and Assistant Professor at UCLA Fielding School of Public Health. “Dirtier energy is available throughout the entire day,” he says, and plenty of data centers require that to maintain peak operation 24-7. “Renewable energy, like wind or solar, might not be as available.” Political or tax incentives, and local pushback, can also affect where data centers get built.

      One key shift in AI right now means that the field’s emissions are soon likely to skyrocket. AI models are rapidly moving from fairly simple text generators like ChatGPT toward highly complex image, video, and music generators. Until now, many of these “multimodal” models have been stuck in the research phase, but that’s changing.

      OpenAI released its video generation model Sora to the public on December 9, and its website has been so flooded with traffic from people eager to test it out that it is still not functioning properly. Competing models, like Veo from Google and Movie Gen from Meta, have still not been released publicly, but if those companies follow OpenAI’s lead as they have in the past, they might be soon. Music generation models from Suno and Udio are growing (despite lawsuits), and Nvidia released its own audio generator last month. Google is working on its Astra project, which will be a video-AI companion that can converse with you about your surroundings in real time.

      “As we scale up to images and video, the data sizes increase exponentially,” says Gianluca Guidi, a PhD student in artificial intelligence at University of Pisa and IMT Lucca and visiting researcher at Harvard, who is the paper’s lead author. Combine that with wider adoption, he says, and emissions will soon jump.

      One of the goals of the researchers was to build a more reliable way to get snapshots of just how much energy data centers are using. That’s been a more complicated task than you might expect, given that the data is dispersed across a number of sources and agencies. They’ve now built a portal that shows data center emissions across the country. The long-term goal of the data pipeline is to inform future regulatory efforts to curb emissions from data centers, which are predicted to grow enormously in the coming years.

      “There’s going to be increased pressure, between the environmental and sustainability-conscious community and Big Tech,” says Francesca Dominici, director of the Harvard Data Science Initiative, Harvard Professor and another coauthor. “But my prediction is that there is not going to be regulation. Not in the next four years.”

      https://www.technologyreview.com/2024/12/13/1108719/ais-emissions-are-about-to-skyrocket-even-further

  • Dès 2025 : amende pour les foyers non équipés de compteurs Linky
    https://ricochets.cc/Des-2025-racket-des-foyers-non-equipes-de-compteurs-Linky-7829.html

    En 2025, les amendes (déguisée en « frais de gestion ») sont promises aux foyers non qui ont refusé le Linky jusqu’ici. Il est indiqué que seules les impossibilités techniques seront exemptées d’amende. Plus bas, quelques rappels sur le fait que des données personnelles de consommation peuvent intéresser la police. Il est question d’autour de 60 €/an ! Un prix élevé pour faire pression, qui apparamment ne correspond pas à leurs éventuels frais (envoyer des courriels et maintenir une page (...) #Les_Articles

    / #Technologie, #Fichage,_contrôle_et_surveillance

    https://www.clubic.com/electricite/actualite-453087-linky-ne-sera-finalement-pas-obligatoire-enedis-confirme.ht
    https://www.lesechos.fr/industrie-services/energie-environnement/compteurs-linky-une-bonne-affaire-pour-enedis-130494
    https://www.quechoisir.org/billet-du-president-linky-les-consommateurs-financent-bien-le-deploiemen
    https://www.quechoisir.org/actualite-compteur-linky-la-cour-des-comptes-tres-critique-n51752
    https://www.inc-conso.fr/content/compteur-linky-et-donnees-personnelles
    https://www.hellowatt.fr/suivi-consommation-energie/compteur-linky/donnees-personnelles-protection
    https://www.dalloz-actualite.fr/flash/compteurs-linky-cnil-met-en-demeure-engie-et-edf-pour-des-manquemen

    • Enedis assure que les données de consommation électriques relativement précises (courbe de charge) qu’il reçoit peuvent être gardées confidentielles si le client coche (ou ne coche pas) la case, mais on se doute bien que la police aura accès à ses données sur mesure.
      Refuser l’enregistrement de la « courbe de charge » pour ne pas offrir des données personnelles précises de consommation
      Pour parer à ce problème, il semble, pour l’instant, possible de refuser la transmission de ces #données de consommation à #Enedis, et mieux, d’opter pour refuser l’enregistrement de ces données (seul le total mensuel serait alors enregistré).

      Il convient de recommander aux ayants droits susceptibles de subir des contrôles CAF de refuser l’enregistrement des données. Les agents de contrôle épluchent déjà les histogrammes de conso pour vérifier la durée annuelle de séjour des contrôlés dans leur habitation principale, qui conditionne le droit aux prestations.

      #linky

  • FakeYou Text
    https://aichief.com/ai-audio-tools/fakeyou

    FakeYou is an AI-powered platform that specializes in converting text into speech and transforming voice recordings into different voices using advanced deepfake technology. The platform offers a range of services, including text-to-speech (TTS), voice-to-voice conversion, and video lip-syncing. In addition, you can input text or audio and choose from a wide selection of voices, such […]

    #AI_Audio_Tools #AI_Web_App #Review

  • Voix sans issue ? Amazon officialise une narration audio par l’IA
    https://actualitte.com/article/119155/audiolivres/voix-sans-issue-amazon-officialise-une-narration-audio-par-l-ia

    La proposition d’Amazon aux narrateurs et narratrices sent tellement l’arnaque, comme toutes les propositions d’Amazon (ce que Cory Doctorow appelle « emmerdification »).

    L’amélioration des outils de synthèse vocale, grâce aux possibilités de l’intelligence artificielle, suscite l’intérêt de plusieurs acteurs du livre audio. Amazon et sa filiale Audible en tête : après le développement d’une solution à destination des auteurs autopubliés, la multinationale inaugure une offre dirigée vers les narrateurs eux-mêmes. Elle propose aux professionnels de « cloner » leurs voix, pour en faire des outils de l’IA, moyennant rémunération.

    Publié le :

    11/09/2024 à 11:08

    Antoine Oury

    8

    Partages
    Partager cet article sur Facebook
    Partager cet article sur Twitter
    Partager cet article sur Linkedin
    Partager cet article par mail
    Imprimer cet article
    ActuaLitté

    Amazon et Audible exploitent plus franchement les possibilités des technologies basées sur l’intelligence artificielle, avec l’ouverture d’un nouveau programme adressée aux narrateurs et narratrices professionnels. Sur le territoire américain uniquement, la firme leur propose de « cloner » leurs voix, pour que ces dernières soient ensuite utilisées à des fins de génération de livres audio.

    Autrement dit, les professionnels de la voix intéressés participeront à l’entrainement de l’intelligence artificielle d’Audible, qui prendra alors le relais, en reproduisant timbre, intonations et rythmes de lecture sur toute une variété de textes.

    En guise de compensation, lorsque la voix reproduite par l’IA sera utilisée pour lire un texte, le propriétaire de celle-ci sera rémunéré en recevant une part des revenus générés — Amazon n’a pas encore détaillé le pourcentage reversé.
    Une phase de test

    Dévoilée sur le blog d’ACX - pour Audiobook Creation Exchange, la place de marché d’Amazon pour la création de livres audio -, l’opération reste pour l’instant très fermée, et réservée à un petit nombre de narrateurs professionnels.

    Grâce à ce programme, « les participants peuvent développer leurs capacités de production de livres audio de haute qualité, générer de nouvelles activités en acceptant plus de projets simultanément et augmenter leurs revenus », promet la multinationale. D’après la publication, les narrateurs participants, même une fois leur voix « clonée » par l’IA, conserveront un contrôle sur les textes qu’ils « liront » de manière artificielle.

    À LIRE - En région PACA, l’IA observée sous toutes les coutures

    Par ailleurs, les narrateurs seront amenés, en utilisant les outils à disposition fournis par ACX, à contrôler la qualité de la lecture par l’IA, voire à corriger les erreurs éventuellement commises par cette dernière. La reproduction de leur voix par l’intelligence artificielle sera totalement gratuite pour les narrateurs intéressés, souligne Amazon.
    Diversifier le catalogue

    ACX travaille de longue date avec des narrateurs et narratrices professionnels, qu’il met en lien avec des auteurs, des éditeurs et des producteurs désireux de créer et commercialiser des livres audio. Cette accélération de la production, avec l’aide de l’intelligence artificielle, présente l’opportunité pour la firme d’étendre un peu plus son catalogue de titres disponibles.

    À LIRE - Amazon révèle une synthèse vocale “de pointe” avec BASE TTS

    Face à la concurrence de Spotify et d’autres acteurs du marché, Amazon entend accomplir pour le livre audio ce qu’elle a réalisé pour l’autopublication : devenir une plateforme incontournable, en proposant le plus grand nombre de références.

    Les auteurs autoédités ont déjà la possibilité de générer un livre audio à l’aide de l’intelligence artificielle, en s’appuyant sur la synthèse vocale — une voix totalement générée, qui ne s’inspire pas forcément d’une voix existante, donc. En mai dernier, Amazon avançait le chiffre de 40.000 livres audio générés automatiquement via ce programme. Des titres qui, produits avec les outils d’Amazon, resteront commercialisés par la firme avant tout...

    Photographie : illustration, murdelta, CC BY 2.0

    #Amazon #Livre_audio #Emmerdification #Voix_clonée

  • Microsoft’s Recall Feature on Windows 11 Not Removable After All
    https://digitalmarketreports.com/news/25091/microsoft-recall-feature-on-windows-11-not-removable-after-all

    Microsoft has confirmed that Windows 11 users will not be able to uninstall the controversial “Recall” feature, despite earlier reports suggesting otherwise. Recall, part of the Copilot+ suite announced in May, automatically captures screenshots of user activity on the operating system, ostensibly to help users easily retrieve past work.

    Oui, ils se foutent de not’gueule quand ils disent qu’ils nous ont entendu et que bon, ok, on va supprimer nos fonctionnalités attentatoires à la sécurité et à la vie privée.

  • Qu’est-ce que l’IA ? Illusions numériques, fausses promesses et rééducation de masse Brandon Smith − Alt-Market

    Au cours des cinq dernières années, le concept d’intelligence artificielle a fait l’objet d’une grande fanfare, à tel point que sa primauté est considérée dans les médias comme une évidence. L’idée que les algorithmes peuvent “penser” est devenue un mythe omniprésent, un fantasme de science-fiction qui prend vie. La réalité est beaucoup moins impressionnante…

    
Les globalistes du Forum économique mondial et d’autres institutions élitistes nous répètent sans cesse que l’IA est le catalyseur de la “quatrième révolution industrielle“, une singularité technologique censée changer à jamais tous les aspects de notre société. J’attends toujours le moment où l’IA fera quelque chose de significatif en termes d’avancement des connaissances humaines ou d’amélioration de nos vies. Ce moment n’arrive jamais. En fait, les globalistes ne cessent de déplacer les poteaux d’affichage de ce qu’est réellement l’IA.


    Je note que les zélateurs du WEF comme Yuval Harari parlent de l’IA comme s’il s’agissait de l’avènement d’une divinité toute puissante (je discute du culte globaliste de l’IA dans mon article “Intelligence Artificielle : Un regard séculaire sur l’antéchrist numérique“). Pourtant, Harari a récemment minimisé l’importance de l’IA en tant qu’intelligence sensible. Il affirme qu’elle n’a pas besoin d’atteindre la conscience de soi pour être considérée comme un super être ou une entité vivante. Il suggère même que l’image populaire d’une IA de type Terminator dotée d’un pouvoir et d’un désir individuels n’est pas une attente légitime.

    En d’autres termes, l’IA telle qu’elle existe aujourd’hui n’est rien de plus qu’un algorithme sans cervelle, et ce n’est donc pas de l’IA. Mais si tous les aspects de notre monde sont conçus autour d’infrastructures numériques et que l’on apprend à la population à avoir une foi aveugle dans l’ “infaillibilité” des algorithmes, alors nous finirons par devenir les dieux robots que les globalistes appellent de leurs vœux. En d’autres termes, la domination de l’IA n’est possible que si tout le monde CROIT que l’IA est légitime. Harari admet essentiellement cet agenda dans le discours ci-dessus.

    L’attrait de l’IA pour le commun des mortels réside dans la promesse de se libérer de tout souci ou de toute responsabilité. Comme tous les narcissiques, l’élite globaliste aime simuler l’avenir et acheter la conformité populaire en promettant des récompenses qui ne viendront jamais.

    Oui, les algorithmes sont actuellement utilisés pour aider les profanes à faire des choses qu’ils ne pouvaient pas faire auparavant, comme construire des sites web, réviser des dissertations, tricher aux examens universitaires, créer de mauvaises œuvres d’art et du contenu vidéo, etc. Les applications utiles sont rares. Par exemple, l’affirmation selon laquelle l’IA “révolutionne” le diagnostic et le traitement médicaux est tirée par les cheveux. Les États-Unis, le pays qui a sans doute le plus accès aux outils d’IA, souffrent également d’une baisse de l’espérance de vie. Nous savons qu’il ne s’agit pas de la Covid, car le virus a un taux de survie moyen de 99,8 %. On pourrait penser que si l’IA est si puissante dans sa capacité à identifier et à traiter les maladies, l’Américain moyen vivrait plus longtemps.

    Il n’existe aucune preuve d’un avantage unique de l’IA à une échelle sociale plus large. Tout au plus, il semble qu’elle permette de supprimer des emplois de développeurs web et d’employés de McDonald’s au “Drive” . L’idée globaliste selon laquelle l’IA va créer une renaissance robotique de l’art, de la musique, de la littérature et de la découverte scientifique est totalement absurde. L’IA s’est avérée n’être rien de plus qu’un outil de commodité médiocre, mais c’est en fait la raison pour laquelle elle est si dangereuse.

    Je soupçonne le WEF d’avoir changé ses idées sur ce que l’IA devrait être parce qu’elle ne répond pas aux aspirations délirantes qu’il avait à l’origine pour elle. Ils attendaient qu’un logiciel prenne vie et commence à leur donner des informations sur les mécanismes de l’univers, et ils commencent à se rendre compte que cela n’arrivera jamais. Au lieu de cela, les élitistes se concentrent de plus en plus sur la fusion du monde humain et du monde numérique. Ils veulent fabriquer la nécessité de l’IA parce que la dépendance de l’homme à l’égard de la technologie sert les objectifs de la centralisation.
    
Mais à quoi cela ressemblerait-il en réalité ? Eh bien, il faut que la population continue à devenir plus stupide tandis que l’IA s’intègre de plus en plus à la société.

    Par exemple, il est aujourd’hui largement admis qu’une formation universitaire n’est pas un gage d’intelligence ou de compétence. Des millions de diplômés entrant sur le marché du travail aujourd’hui font preuve d’un niveau d’incompétence déconcertant. Cela s’explique en partie par le fait que les enseignants sont moins compétents, qu’ils ont des préjugés idéologiques et que le programme d’études moyen s’est dégradé. Mais nous devons aussi commencer à prendre en compte le nombre d’enfants qui suivent leur scolarité en utilisant ChatGPT et d’autres outils de triche.

    Ils n’ont pas besoin d’apprendre quoi que ce soit, l’algorithme et la caméra de leur téléphone portable font tout pour eux. Cette tendance est inquiétante, car les êtres humains ont tendance à emprunter le chemin le plus facile dans tous les aspects de la survie. La plupart des gens ont cessé d’apprendre à cultiver leur nourriture parce que l’agriculture industrielle le fait pour nous. Ils ont cessé d’apprendre à chasser parce qu’il y a des abattoirs et des camions frigorifiques.

    Aujourd’hui, de nombreux Zennials sont incapables de se faire à manger parce qu’ils peuvent recevoir des plats à emporter à leur porte à tout moment. Ils ne parlent presque plus au téléphone et ne créent plus de communautés physiques parce que les textos et les médias sociaux sont devenus les intermédiaires de l’interaction humaine.

    Oui, tout est “plus facile” , mais cela ne veut pas dire que tout est mieux.

    Ma grande crainte – L’avenir que je vois se profiler est un avenir dans lequel les êtres humains ne prennent plus la peine de penser. L’IA pourrait être considérée comme l’ultime accumulation de connaissances humaines ; une bibliothèque massive ou un cerveau numérique qui effectue toutes les recherches et réfléchit à votre place. Pourquoi apprendre quoi que ce soit quand l’IA “sait tout”  ? Mais c’est un mensonge.

    L’IA ne sait pas tout ; elle ne sait que ce que ses programmeurs veulent qu’elle sache. Elle ne vous donne que les informations que ses programmeurs veulent que vous ayez. Les globalistes l’ont bien compris et ils sentent bien le pouvoir qu’ils auront si l’IA devient une plateforme éducative de premier plan. Ils y voient un moyen d’inciter les gens à abandonner le développement personnel et la pensée individuelle.

    Voyez les choses sous cet angle : Si tout le monde commence à se tourner vers l’IA pour obtenir des réponses à toutes ses questions, alors tout le monde recevra exactement les mêmes réponses et arrivera exactement aux mêmes conclusions. Tout ce que l’IA a à faire, c’est de censurer activement toute information qui contredit le récit officiel.

    Nous avons eu un aperçu de cette situation orwellienne lors de la pandémie de Covid, lorsque des entreprises de haute technologie comme Google ont utilisé des algorithmes pour enterrer toutes les données qui prouvaient que la crise Covid n’était pas la menace que les autorités gouvernementales prétendaient qu’elle représentait. Pendant au moins trois ans, il était impossible d’aller sur YouTube et de trouver des informations alternatives sur le virus ou les vaccins. L’algorithme a obligé tout le monde à passer au crible une longue liste de sources officielles, dont beaucoup véhiculent des mensonges flagrants sur le masquage, la distanciation sociale, le taux de mortalité dû à la crise Covid et la sécurité des vaccins.

    Le pouvoir en place n’a même pas besoin de censurer ou de supprimer directement les informations qu’il n’aime pas. Il leur suffit de laisser l’algorithme dicter les résultats de recherche et d’enterrer la vérité à la page 10 000, là où personne ne la cherchera.

    Quel serait l’impact sur le citoyen moyen ? Supposons que l’IA soit programmée pour dicter le discours scientifique. Que se passerait-il si l’IA disait que le changement climatique provoqué par l’homme est une réalité indéniable et que “la science est établie” , sans jamais présenter la montagne de preuves contraires ? Personne ne cherchera les vraies données parce que l’IA les rendra impossibles à trouver. Tout le monde supposera que l’IA leur dit tout ce qu’il y a à savoir sur le sujet, mais il y a pire encore…

    De nombreux lecteurs se souviendront peut-être qu’il y a quelques mois, le système d’IA “Gemini” de Google a été programmé pour imposer l’IED à ses utilisateurs https://www.theverge.com/2024/2/21/24079371/google-ai-gemini-generative-inaccurate-historical . Chaque fois qu’une personne demandait à l’IA de créer une image historique, l’algorithme rendait tout le monde noir ou brun et souvent féminin. Les représentations d’hommes blancs étaient étrangement rares, malgré l’exactitude historique. Cela signifie des images sans fin de Highlanders noirs et bruns en Écosse, de Pères fondateurs noirs en Amérique, de papes catholiques féminins, de chevaliers asiatiques dans l’Europe médiévale, et même, ce qui est hilarant, de nazis noirs dans l’Allemagne de la Seconde Guerre mondiale.

    Les développeurs d’IA affirment souvent qu’une fois l’IA créée, ils ne contrôlent plus vraiment ce qu’elle fait et comment elle se développe. L’incident “Gemini” prouve que c’est un mensonge. L’IA peut définitivement être contrôlée, ou du moins modelée par le codage pour promouvoir la propagande que les programmeurs veulent qu’elle promeuve. Il n’existe pas d’IA autonome ; il y a toujours un agenda.

    En résumé, les globalistes souhaitent la prolifération de l’IA parce qu’ils savent que les gens sont paresseux et qu’ils utiliseront le système comme substitut à la recherche individuelle. Si cela se produit à grande échelle, l’IA pourrait être utilisée pour réécrire tous les aspects de l’histoire, corrompre les racines mêmes de la science et des mathématiques et transformer la population en un esprit de ruche baveux ; une écume bourdonnante de drones décérébrés consommant chaque proclamation de l’algorithme comme si elle était sacro-sainte.

    En ce sens, Yuval Harari a raison. L’IA n’a pas besoin de devenir sensible ou d’utiliser une armée de robots tueurs pour faire beaucoup de mal à l’humanité. Il lui suffit d’être suffisamment pratique pour que nous n’ayons plus envie de penser par nous-mêmes. Comme le “Grand et Puissant” OZ qui se cache derrière un rideau numérique, vous pensez acquérir des connaissances auprès d’un magicien alors que vous êtes en réalité manipulés par des vendeurs d’huile de serpent globalistes.

    Traduit par Hervé pour le Saker Francophone

    #Data #Données #IA #AI #Intelligence_Artificielle #High-tech #robotique #algorithme #artificial-intelligence #escroquerie #bidonnage #Manipulation #WEF

    Source et liens : https://lesakerfrancophone.fr/quest-ce-que-lia-illusions-numeriques-fausses-promesses-et-reeduc

  • Air Quality #Stripes

    This website shows the concentration of particulate matter air pollution (PM2.5) in cities around the world. Very few historical observations of PM2.5 exist before the year 2000 so instead we use data produced from a mix of computer model simulations and satellite observations.

    For the most recent years (2000-2021) we use a dataset that combines ground-level and satellite observations of PM2.5 concentrations from Van Donkelaar et at (2021, V5 0.1 degree resolution), this dataset can be found here.

    Satellite observations of PM2.5 aren’t available for the years before 1998, so instead we take the historical trend in air pollution concentrations from computer models (Turnock 2020); publicly available model data was taken from the Coupled Model Intercomparison Project (CMIP6) which is made freely available via the Earth System Grid Federation (ESGF), these are the climate models used for the IPCC assessment report. We used data from the UKESM submission to CMIP (data is here). The historical concentrations for the UKESM model are calculated using changes in air pollutant emissions obtained from the Community Emissions Data System (CEDS) inventory developed by Hoesly et al, 2018 and used as input to CMIP6 historical experiments.

    Modelling global concentrations of pollutants is very challenging, and models are continuously being evaluated against observations to improve their representation of physical and chemical processes. Previous research has shown that the CMIP6 multi-model simulations tend to underestimate PM2.5 concentrations when compared to global observations (Turnock et al., 2020). To address this issue and to ensure a smooth time series between the model and satellite data, we take the following steps: for each city, we first calculate a three-year (2000-2002) mean of the satellite data for that city. Next, we calculate the three-year (2000-2002) mean of model concentrations for the same city. The ratio between these values represents the model’s bias compared to observations. We then adjust (or “weight”) the model values using this ratio. This is a similar approach to that taken by Turnock et al. (2023) and Reddington et al. (2023).

    Because so few historical observations of PM2.5 exist, so it is challenging to evaluate how good this approximation is, but in our approach the historical trend is taken from the computer model and the values are informed by the satellite.

    This is the first versions of the Air Quality Stripes, they will be updated in the future as improved model simulations and observations become available. We welcome comments and suggestions for improvements!

    The data used to create these images is here: https://zenodo.org/records/13361899

    https://airqualitystripes.info

    #qualité_de_l'air #visualisation #données #statistiques #air #pollution_de_l'air #pollution #villes

    ping @reka via @freakonometrics

  • Comme si tout le reste n’était pas déjà suffisant (pour un petit aperçu, vous pouvez rester sur seenthis : https://seenthis.net/tag/elsevier), voici que je découvre que :
    Scientists : Elsevier has a shocking amount of data about you.
    https://fediscience.org/@ct_bergstrom/113010261685808797

    –—

    Welcome to Hotel Elsevier : you can check-out any time you like … not

    In December 2021, Robin Kok wrote a series of tweets about his Elsevier data access request. I did the same a few days later. This here is the resulting collaborative blog post, summarizing our journey in trying to understand what data Elsevier collects; what data Elsevier has collected on us two specifically; and trying to get this data deleted. A PDF version of this blog post is also available.

    Elsevier, data kraken

    Everybody in academia knows Elsevier. Even if you think you don’t, you probably do. Not only do they publish over 2,500 scientific journals, but they also own the citation database Scopus, as well as the ScienceDirect collection of electronic journals from which you get your papers. That nifty PURE system your university wants you to use to keep track of your publications and projects? You guessed it: Elsevier. And what about that marvelous reference manager, Mendeley? Elsevier bought it in 2013. The list goes on and on.

    But what exactly is Elsevier? We follow the advice of an Elsevier spokesperson: “if you think that information should be free of charge, go to Wikipedia”. Let’s do that! Wikipedia, in their core summary section, introduces Elsevier as “a Netherlands-based academic publishing company specializing in scientific, technical, and medical content.”

    The intro continues:

    And it’s not just rent-seeking. Elsevier admitted to writing “sponsored article compilation publications, on behalf of pharmaceutical clients, that were made to look like journals and lacked the proper disclosures“; offered Amazon vouchers to a select group of researchers to submit five star reviews on Amazon for certain products; manipulated citation reports; and is one of the leading lobbyists against open access and open science efforts. For this, Elsevier’s parent company, RELX, even employs two full-time lobbyists in the European Parliament, feeding “advice” into the highest levels of legislation and science organization. Here is a good summary of Elsevier’s problematic practices—suffice it to say that they’re very good at making profits.

    As described by Wikipedia, one way to make profits is Elsevier’s business as an academic publisher. Academics write articles for Elsevier journals for free and hand over copyright; other academics review and edit these papers for free; and Elsevier then sells these papers back to academics. Much of the labor that goes into Elsevier products is funded by public money, only for Elsevier to sell the finished products back e.g. to university libraries, using up even more public money.

    But in the 2020s—and now we come to the main topic of this piece—there is a second way of making money: selling data. Elsevier’s parent company RELX bills itself as “a global provider of information-based analytics and decision tools for professional and business customers”. And Elsevier itself has been busy with rebranding, too:

    This may sound irrelevant to you as a researcher, but here we show how Elsevier helps them to monetize your data; the amount of data they have on you; and why it will require major steps to change this troubling situation.
    Data access request

    Luckily, folks over at Elsevier “take your privacy and trust in [them] very seriously”, so we used the Elsevier Privacy Support Hub to start an “access to personal information” request. Being in the EU, we are legally entitled under the European General Data Protection Regulation (GDPR) to ask Elsevier what data they have on us, and submitting this request was easy and quick.

    After a few weeks, we both received responses by email. We had been assigned numbers 0000034 and 0000272 respectively, perhaps implying that relatively few people have made use of this system yet. The emails contained several files with a wide range of our data, in different formats. One of the attached excel files had over 700,000 cells of data, going back many years, exceeding 5mb in file size. We want to talk you through a few examples of what Elsevier knows about us.
    They have your data

    To start with, of course they have information we have provided them with in our interactions with Elsevier journals: full names, academic affiliations, university e-mail addresses, completed reviews and corresponding journals, times when we declined review requests, and so on.

    Apart from this, there was a list of IP addresses. Checking these IP addresses identified one of us in the small city we live in, rather than where our university is located. We also found several personal user IDs, which is likely how Elsevier connects our data across platforms and accounts. We were also surprised to see multiple (correct) private mobile phone numbers and e-mail addresses included.

    And there is more. Elsevier tracks which emails you open, the number of links per email clicked, and so on.

    We also found our personal address and bank account details, probably because we had received a small payment for serving as a statistical reviewer1. These €55 sure came with a privacy cost larger than anticipated.

    Data called “Web Traffic via Adobe Analytics” appears to list which websites we visited, when, and from which IP address. “ScienceDirect Usage Data” contains information on when we looked at which papers, and what we did on the corresponding website. Elsevier appears to distinguish between downloading or looking at the full paper and other types of access, such as looking at a particular image (e.g. “ArticleURLrequestPage”, “MiamiImageURLrequestPage”, and “MiamiImageURLreadPDF”), although it’s not entirely clear from the data export. This leads to a general issue that will come up more often in this piece: while Elsevier shared what data they have on us, and while they know what the data mean, it was often unclear for us navigating the data export what the data mean. In that sense, the usefulness of the current data export is, at least in part, questionable. In the extreme, it’s a bit like asking google what they know about you and they send you a file full of special characters that have no meaning to you.

    Going back to what data they have, next up: Mendeley. Like many, both of us have used this reference manager for years. For one of us, the corresponding tab in the excel file from Elsevier contained a whopping 213,000 lines of data, from 2016 to 2022. For the other, although he also used Mendeley extensively for years, the data export contained no information on Mendeley data whatsoever, a discrepancy for which we could not find an explanation. Elsevier appears to log every time you open Mendeley, and many other things you do with the software—we found field codes such as “OpenPdfIn InternalViewer”, “UserDocument Created”, “DocumentAnnotation Created”, “UserDocument Updated”, “FileDownloaded”, and so on.

    They use your data

    Although many of these data points seem relatively innocent at first, they can easily be monetized, because you can extrapolate core working hours, vacation times, and other patterns of a person’s life. This can be understood as detailed information about the workflow of academics – exactly the thing we would want to know if, like Elsevier, our goal was to be a pervasive element in the entire academic lifecycle.

    This interest in academic lifecycle data is not surprising, given the role of Elsevier’s parent company RELX as a global provider of information-based analytics and decision tools, as well as Elsevier’s rebranding towards an Information Analytics Business. Collecting data comes at a cost for a company, and it is safe to assume that they wouldn’t gather data if they didn’t intend to do something with it.

    One of the ways to monetize your data is painfully obvious: oldschool spam email tactics such as trying to get you to use more Elsevier services by signing you up for newsletters. Many academics receive unending floods of unsolicited emails and newsletters by Elsevier, which prompted one of us to do the subject access request in the first place. In the data export, we found a huge list of highly irrelevant newsletters we were unknowingly subscribed to—for one of us, the corresponding part of the data on “communications” has over 5000 rows.

    You agreed to all of this?

    Well, actually, now that you ask, we don’t quite recall consenting to Mendeley collecting data that could be used to infer information on our working hours and vacation time. After all, with this kind of data, it is entirely possible that Elsevier knows our work schedule better than our employers. And what about the unsolicited emails that we received even after unsubscribing? For most of these, it’s implausible that we would have consented. As you can see in the screenshot above, during one day (sorry, night!), at 3:20am, within a single minute, one of us “signed up” to no fewer than 50 newsletters at the same time – nearly all unrelated to our academic discipline.

    Does Elsevier really have our consent for these and other types of data they collected? The data export seems to answers this question, too, with aptly named columns such as “no consent” and “unknown consent”, the 0s and 1s probably marking “yes” or “no”.

    You can check-out any time you like…?

    Elsevier knows a lot about us, and the data they sent us in response to our access request may only scratch the surface. Although they sent a large volume of data, inconsistencies we found (like missing Mendeley data from one of us) make us doubt whether it is truly all the data they have. What to do? The answer seems straightforward: we can just stop donating our unpaid time and our personal and professional data, right? Indeed, more than 20,000 researchers have already taken a stand against Elsevier’s business practices, by openly refusing to publish in (or review / do editorial work for) Elsevier.

    But that does not really solve the problem we’re dealing with here. A lot of your data Elsevier might monetize is data you cannot really avoid to provide as an academic. For example, many of you will access full texts of papers through the ScienceDirect website, which often requires an institutional login. Given that the login is uniquely identifiable, they know exactly which papers you’ve looked at, and when. This also pertains to all of the other Elsevier products, some of which we briefly mentioned above, as well as emails. Many emails may be crucial for you (e.g. from an important journal), and Elsevier logs what emails you open and whether you click on links. Sure, this is probably standard marketing practice and Elsevier is not the only company doing it, but it doesn’t change the fact that as an active academic, you basically cannot avoid giving them data they can sell. In fact, just nominating someone for peer review can be enough to get them on their list. Did you ever realize that for most reviews you’re invited to, you actually never consented to being approached by the given journal?

    Elsevier has created a system where it seems impossible to avoid giving them your data. Dominating or at least co-dominating the market of academic publishing, they exploited free labor of researchers, and charged universities very high amounts of money so researchers could access scientific papers (which, in part, they wrote, reviewed and edited themselves). This pseudo-monopoly made Elsevier non-substitutable, which now allows their transition into a company selling your data.

    Worse, they say that “personal information that is integral to editorial history will be retained for as long as the articles are being made available”, as they write in their supporting information document on data collection and processing we received as part of the access request. What data exactly are integral to editorial history remains unclear.

    If not interacting with Elsevier is not a sustainable solution in the current infrastructure, maybe some more drastic measures are required. So one of us took the most drastic step available on Elsevier’s privacy hub: a deletion of personal information request.

    This was also promptly handled, but leaves two core concerns. First, it is not entirely clear to us what information was retained by Elsevier, for example, because they consider it “integral to editorial history”. And second, how sustainable is data deletion if all it takes to be sucked back into the Elsevier data ecosystem again is one of your colleagues recommending you as a reviewer for one of the 600,000 articles Elsevier publishes per year?

    Conclusion

    Some of the issues mentioned here, such as lack of consent, seem problematic to us from the perspective of e.g. European data protection laws. Is it ok for companies to sign us up to newsletters without consent? Is it ok to collect and retain personal data indefinitely because Elsevier argues it is necessary?

    And when Elsevier writes in the supporting information that they do “not undertake any automated decision making in relation to your personal information” (which may violate European laws), can that be true when they write, in the same document, that they are using personal information to tailoring experiences? “We are using your personal data for […] enhancing your experience of those products, for example by providing personalized recommendations based on your use of the products.”

    We are not legal scholars, and maybe there is no fire here. But from where we stand, there seems to be an awful lot of smoke. We hope that legal and privacy experts can bring clarity to the questions we raise above—because we simply don’t know what to do about a situation that is becoming increasingly alarming.

    https://eiko-fried.com/welcome-to-hotel-elsevier-you-can-check-out-any-time-you-like-not

    #données #édition_scientifique #Scopus #ScienceDirect #RELX #information_analytics #business

  • #Pollution de la #Seine : libérez les #données !

    Au nom du droit à l’information et pour rappeler la réalité face aux discours hors sol, nous publions tous les résultats auxquels nous avons eu accès sur la pollution de la Seine depuis l’ouverture des Jeux olympiques.

    AuAu 13e jour des Jeux olympiques, les données sur les mesures de pollution dans la Seine n’ont toujours pas été libérées. Pour connaître les taux de pollution bactériologique d’un des fleuves les plus connus au monde, dans l’une des villes les plus visitées au monde, le grand public est bien seul. Il ne peut compter que sur les médias relayant les points presse des organisateurs des Jeux – quand la qualité de l’eau de la Seine est à l’ordre du jour, c’est-à-dire uniquement lors des épreuves de triathlon et de nage en eau libre.

    Pourtant, ces informations sont par nature publiques et d’intérêt général. Le Code de l’environnement oblige les autorités à communiquer sans délai toute information relative à l’environnement (article L124-2). La directive européenne sur les eaux de baignade, en 2006, rend obligatoire l’affichage des mesures de pollution sur les sites de baignade.

    L’eau des rivières et des fleuves est un bien commun. Aucun événement sportif ou culturel, aussi spectaculaire soit-il, ne peut s’arroger le droit de privatiser les informations qui la concerne. Que la pollution soit d’origine virale, bactérienne, parasitaire ou chimique, elle doit être connue de toutes et tous. Pour respecter le droit à l’information sur la qualité de leur environnement. Mais aussi pour nourrir et attiser le regard et l’intérêt des citoyen·nes pour la Seine.

    Qu’elle ne soit plus considérée comme un simple mode de transport de péniches ou de bateaux-mouches pour touristes. Mais bien comme un élément central et vital pour Paris, ses habitant·es, et toute la faune et la flore qui en dépendent pour subsister.

    Enfin, face à des discours politiques hors sol, les mesures scientifiquement recueillies de taux de pollution biologique marquent un juste et nécessaire retour au réel.

    C’est la raison pour laquelle Mediapart a décidé de publier tous les résultats auxquels nous avons eu accès sur la pollution de la Seine depuis l’ouverture des Jeux olympiques, le 27 juillet.

    Jusqu’à l’ouverture des Jeux olympiques, le 26 juillet, la mairie de Paris publiait un « bulletin » hebdomadaire révélant – a posteriori – les résultats de 4 points de prélèvement. Diffusion qui s’est arrêtée avec le début des compétitions. Face à cette opacité, dans un souci d’information du public mais également pour que les chercheurs et chercheuses puissent s’emparer de ces informations, Mediapart publie ci-dessous les résultats d’analyse que nous avons pu récupérer, jusqu’au 5 août.

    Pour rappel, les seuils exigés par la fédération internationale de triathlon sont de 1 000 UFC/100 ml pour les E. coli et de 400 pour les entérocoques. Ces limites passent à 900 (pour les E. coli) et 330 (pour les entérocoques) pour les autorisations de baignade « grand public » de l’agence régionale de santé.

    Résultats des prélèvements du 5 août :

    Pour le 4 août, les chiffres communiqués par le comité d’organisation de Paris 2024 font état de résultats situés entre 727 et 1 553 UFC/100 ml d’E. coli.

    Résultats des prélèvements du 3 août :

    Résultats des prélèvements des 1er et 2 août :

    (et les autres résultats des analyses, dans l’article...)

    Pour le 27 juillet, les données n’ont pas été communiquées, mais la courbe montre que tous les points de contrôle étaient largement au-dessus des seuils autorisés (en raison notamment de l’orage de la veille, pendant la cérémonie d’ouverture).

    https://www.mediapart.fr/journal/france/070824/pollution-de-la-seine-liberez-les-donnees
    #chiffres #JO #jeux_olympiques #Paris

  • I proletari dell’intelligenza artificiale

    Come fa oggi un sito di commercio online a restituirci tutti i risultati che corrispondono a “maglia verde in seta” che stavamo cercando? Come fa un’auto che si guida da sola a riconoscere un pedone e a non investirlo? Come può Facebook capire che un certo contenuto è violento o pedopornografico e va bloccato? Come si comporta un chatbot per stabilire di quale informazione abbiamo bisogno? In tutti questi casi, la risposta è una: glielo insegna un essere umano.

    Un essere umano che guarda, analizza ed etichetta milioni di dati ogni giorno e li fornisce a quella che comunemente chiamiamo intelligenza artificiale (ia). L’intelligenza artificiale, per poter funzionare, ha bisogno di persone che la addestrino. E i suoi istruttori sono i nuovi proletari digitali. Quelli che si occupano delle mansioni più semplici, che si trovano alla base della piramide lavorativa del settore, i cui piani più alti sono occupati da analisti di dati, ingegneri o programmatori specializzati. Per insegnare all’intelligenza artificiale a riconoscere contenuti, e a crearne di nuovi, è necessario etichettare correttamente i dati, descrivere immagini, trascrivere testi, fare piccole traduzioni, identificare segnali stradali o altri elementi all’interno di immagini. I cosiddetti data labeling, gli etichettatori di dati, attraverso lavori spesso ripetitivi e alienanti, permettono l’addestramento dei software. Senza l’intervento umano, l’ia non sarebbe in grado di operare perché non saprebbe come interpretare i dati che le vengono sottoposti.

    “Quello che viene venduto come intelligenza artificiale è un tipo di apprendimento automatico, significa che bisogna nutrire la macchina con miliardi di dati, e sulla base di questo la macchina impara”, spiega Antonio Casilli, professore di sociologia al Telecom, l’istituto politecnico di Parigi, in Francia. “Per poter funzionare, che si tratti di creare un piccolo filtro di TikTok o software alla ChatGpt, c’è bisogno di masse enormi di dati, che devono però essere trattati, o meglio preaddestrati”. La “P” di chatGpt, che è l’acronimo di Generative pretrained transformer, significa infatti preaddestrato.

    Questo lavoro di preaddestramento è fatto però da persone che non sono quasi mai valorizzate. “Non vengono riconosciuti come i veri autori di questi prodigi tecnologici perché da una parte sono oscurati da professionisti molto più visibili, come i data scientist o gli ingegneri, e dall’altra perché non c’è interesse a far riconoscere l’intelligenza artificiale come una tecnologia labour intensive, cioè che ha bisogno di molto lavoro. L’intelligenza artificiale fa finta di essere una tecnologia che serve ad automatizzare il lavoro, e quindi a risparmiare, mentre invece ne richiede tantissimo”, spiega ancora Casilli.

    A sottolineare il concetto è anche Antonio Aloisi, che insegna diritto del lavoro all’università Ie di Madrid, in Spagna. “È sempre più evidente che l’imperfezione, l’incompletezza, l’inaccuratezza dei risultati, ha bisogno di un passaggio umano, che validi i risultati, che corregga gli errori e che faccia una prima verifica. In molte esperienze con i chatbot non c’è nulla di intelligente, ma soprattutto nulla di artificiale. I dati sono goffi, disfunzionali, per questo c’è bisogno di un ‘badante’ umano”.

    Quello degli istruttori è un lavoro a suo modo specializzato, ma quella specializzazione non è ben pagata, anzi è pagata malissimo. Non c’è interesse da parte delle aziende che reclutano questi lavoratori a riconoscerne le competenze, perché riconoscerle significherebbe pagarle. Casilli, con il suo gruppo di ricerca Diplab del politecnico di Parigi, uno dei tre al mondo che fa ricerca sul campo su questo tema, ha intervistato più di quattromila persone in venti paesi, soprattutto in quelli a basso reddito come Venezuela, Madagascar o Kenya, e ha raccolto e analizzato le esperienze di lavoro delle persone coinvolte.

    “Nella nostra ricerca abbiamo incontrato addirittura persone pagate 0,001 dollaro per ogni azione che compiono durante le loro mansioni. Sono reclutate in paesi talmente a basso reddito che per loro, purtroppo, diventa economicamente interessante svolgere questi compiti pagati male. In Venezuela, dove l’80 per cento della popolazione vive sotto la soglia di povertà e il salario medio è di sei-otto dollari al mese, arrivare a guadagnarne un po’ di più facendo microtask (traduzioni, descrizioni, tagging, sondaggi…) per l’intelligenza artificiale può in effetti rappresentare una prospettiva ed è su questo che fanno leva molte aziende come Google, la OpenAi, la Meta”.

    Si tratta di una catena di approvvigionamento molto lunga. Queste aziende subappaltano il lavoro ad altre, che di solito operano all’estero. “La filiera arriva fino in Asia, in Africa o in America Latina, dove ci sono piccole realtà informali, in cui si lavora in nero, spesso a conduzione familiare, e lì diventa difficilissimo, e a volte perfino pericoloso, investigare. Dobbiamo addentrarci in case, in internet point, in luoghi malfamati, per intervistare queste persone”, spiega Casilli.

    La ricerca di lavoratori avviene anche attraverso degli annunci online. “Vuoi aiutarci a plasmare il futuro dell’intelligenza artificiale? Abbiamo un lavoro al 100 per cento da remoto per te: non è richiesta alcuna esperienza, ma solo la volontà di imparare e contribuire al campo all’avanguardia dell’intelligenza artificiale. Che tu sia agli inizi o un professionista esperto, la nostra comunità ha un ruolo per te! Avrete l’opportunità di contribuire all’addestramento di applicazioni di ia come ia generativa, modelli linguistici di grandi dimensioni, assistenti virtuali, chatbot, motori di ricerca e molto altro ancora”. Questo è solo uno degli annunci che si trovano sui siti di ricerca lavoro per assumere addestratori di sistemi basati sull’intelligenza artificiale. L’antesignana di queste piattaforme è Amazon turk, nata come una sorta di supporto ad Amazon per mettere ordine tra i tantissimi annunci che comparivano sul sito, al caos delle descrizioni. Una bacheca globale per la ricerca di lavoro, con la possibilità di registrarsi e partecipare a queste microtask.

    “Ci siamo imbattuti in situazioni diverse, dall’addestramento dei filtri per la moderazione dei contenuti su Facebook in Kenya allo sviluppo di sindromi post-traumatiche da stress abbastanza forti, a famiglie venezuelane che si organizzano per lavorare senza fermarsi mai”, dice Casilli, raccontando alcune delle testimonianze raccolte sul campo. Certi creano delle piccole fabbriche in casa, dove la mattina lavora il padre, poi è il turno della figlia quando torna da scuola, e la sera la mamma o addirittura la nonna. In Venezuela l’elettricità costa poco, e all’epoca di Chavez era stato lanciato un programma per distribuire computer in tutte le famiglie, quindi oggi un po’ tutti possono lavorare da casa.

    Ci sono addirittura casi di false intelligenze artificiali: aziende che vendono videocamere di sorveglianza basata sull’ia a supermercati, e poi si scopre che non c’è alcuna intelligenza artificiale dietro, ma persone in Africa, pagate pochissimo, che fanno sorveglianza in tempo reale. “Abbiamo passato una settimana in una casa in Madagascar trasformata in fabbrica di dati, con lavoratori ovunque in garage, in soffitta. Erano almeno in 120 in una casa sommersa dalla spazzatura e con un bagno solo, pagati pochissimo e impiegati giorno e notte per far finta di essere un sistema di videosorveglianza basato sull’intelligenza artificiale”, racconta Casilli.

    La paga bassissima, soprattutto se paragonata ai miliardi che girano nell’indotto delle grandi aziende tecnologiche, non è l’unico dei problemi. Un aspetto sottovalutato è quello dei traumi psicologici a cui sono sottoposti i lavoratori. Si tratta spesso di compiti ripetitivi e alienanti, e in molti casi, come nella moderazione dei contenuti sui social network, si ha a che fare con contenuti tossici, violenti, sessualmente degradanti.

    E poi c’è l’instabilità. “Per i data worker uno dei problemi più sentiti, al di là delle paghe basse, è l’ansia di non avere un lavoro costante. Devono essere sempre disponibili. Non hanno alcun controllo sul salario, sul carico e sulle modalità di lavoro. I moderatori sono esposti tutto il giorno a contenuti osceni. Ci possono essere diverse conseguenze psicologiche”, spiega Simone Robutti, cofondatore della sezione berlinese e italiana della Tech workers coalition, un’organizzazione dei lavoratori del settore tecnologico nata per conquistare maggiori diritti e migliori condizioni. Molte di queste persone fanno questo lavoro perché hanno problemi di salute, non possono muoversi da casa. E quindi sono ulteriormente ricattabili, dice Robutti.

    Un altro aspetto del problema lo individua Teresa Numerico, professoressa di logica e filosofia della scienza all’università Roma Tre, secondo cui molti lavoratori firmano degli accordi di riservatezza così restrittivi che hanno addirittura paura di chiedere supporto legale o psicologico. “È per questo che si sa pochissimo di questo sottobosco lavorativo”.

    Il lavoro invisibile

    Spesso, quando si parla delle conseguenze dell’avvento delle intelligenze artificiali nel mondo del lavoro, si vede il pericolo maggiore nella sostituzione degli esseri umani da parte delle macchine. Ma Numerico sposta lo sguardo. “La conseguenza peggiore di questo processo non è tanto che l’intelligenza artificiale ha cominciato a fare il lavoro degli esseri umani, ma che ha incorporato il lavoro umano in modo tale da averlo reso invisibile. Questo produce maggiore potenziale di sfruttamento”.

    Stiamo assistendo da qualche anno alla cosiddetta piattaformizzazione del lavoro, cioè l’utilizzo delle piattaforme digitali e delle app per far incontrare domanda e offerta di lavoro. E sulle piattaforme sono impiegate persone che sono solo un’appendice delle macchine. “Questo li rende oggetto di sfruttamento. In un certo senso sono in competizione con le macchine. Si tratta di lavoratori intercambiabili. I rider sono ‘l’aristocrazia’ di questo processo, perché quantomeno si vedono”, dice Numerico.

    Nel gennaio 2023 Time ha pubblicato un’inchiesta sugli addestratori della OpenAi che guadagnavano meno di due dollari all’ora. L’azienda a cui la OpenAi aveva esternalizzato questo lavoro era la Sama di San Francisco, negli Stati Uniti, che impiega persone in Kenya, Uganda, India e altri paesi a basso reddito. Anche Google, la Meta e la Microsoft fanno così. Quelli assunti dalla Sama per conto della OpenAi erano pagati tra 1,32 e 2 dollari all’ora, a seconda dell’anzianità e delle prestazioni. Si legge nell’inchiesta: “Un lavoratore della Sama incaricato di leggere e analizzare il testo per la OpenAi ha raccontato di aver sofferto di disturbi ossessivi dopo aver letto la descrizione di un uomo che faceva sesso con un cane davanti a un bambino. ‘È stata una tortura’, ha detto”. Gli etichettatori di dati più giovani ricevevano uno stipendio di 21mila scellini kenioti (170 dollari) al mese.

    Come si vede dal racconto di Time, quando si parla di proletariato digitale esiste una divisione tra nord e sud del mondo. “Le grandi aziende che sviluppano e usano queste tecnologie hanno sede nei paesi ricchi. Ma chi completa manualmente queste attività è quasi sempre in Africa, in India. Anche perché le barriere all’ingresso sono poche: basta avere una connessione e una padronanza della lingua inglese”, spiega Aloisi. Numerico è d’accordo: c’è un tema di colonizzazione e razzializzazione.

    Come funziona in Italia

    “Anche in Italia troviamo annunci di lavoro in questo settore, che vanno dai 7 ai 15 euro l’ora”, spiega Aloisi.

    Secondo Casilli, poi, in Italia c’è qualche azienda un po’ più specializzata, per esempio nel trattamento di immagini per le radiografie e sistemi medici. “Ma la realtà è che non significa necessariamente che i lavori siano pagati meglio. L’Italia resta un paese in cui la difesa dei diritti dei lavoratori è sostanzialmente disattesa e ci sono situazioni di estrema precarietà”.

    Casilli anticipa i risultati di un’inchiesta del suo gruppo di ricerca, che sarà pubblicata tra qualche mese. I tre paesi europei più interessati dal fenomeno degli addestratori di sistemi di intelligenza artificiale sono la Spagna, il Portogallo e subito dopo l’Italia. Tanti lavoratori coinvolti, come in Italia, sono immigrati, che non hanno accesso al mercato del lavoro regolare e che trovano almeno una fonte di reddito, anche se scadente, in condizioni terribili, con addirittura il rischio enorme di non essere pagati. Sono persone che arrivano in Italia dall’Africa, dall’Asia, dal Sudamerica.

    Un’ulteriore faccia della stessa medaglia la evidenzia Numerico: “Per quanto riguarda l’addestramento in lingua italiana, spesso non è impiegato chi vive in Italia, ma chi parla italiano e vive all’estero, come per esempio in Nordafrica o in Albania”.

    Tutti questi lavoratori è come se si trovassero nel ventre di una balena e – a differenza di altri, come per esempio i rider – sono più difficili da tutelare, proprio perché invisibili. “Il primo passo è cominciare a far emergere la loro presenza, e poi avviare le lotte sindacali per trattamenti equi”, spiega Numerico, che individua nel lavoro da remoto un ostacolo, ma anche un modo per aggirarlo: la tecnologia potrebbe mettere in comunicazione queste persone dislocate in vari paesi e accomunate dal fatto di subire le stesse condizioni lavorative.

    In questo processo di piattaformizzazione il datore di lavoro scarica le proprie responsabilità, spiega Numerico. Non essendo un tipo di impiego subordinato, il datore non solo paga poco, ma non mette a disposizione dei lavoratori né i mezzi di produzione né gli spazi, e non si assume alcun rischio. Tuttavia, si prende il profitto che ne risulta. “Il lavoratore si assume tutti i rischi e deve anche pagarsi i mezzi per poter lavorare. Si crea uno spazio le cui regole sono dettate da chi detiene il controllo su quello spazio. Il datore di lavoro è evanescente”, conclude Numerico.

    Robutti della Tech workers coalition spiega che l’obiettivo dell’organizzazione è mostrare che ci si può sindacalizzare e organizzare anche nel settore della tecnologia digitale. Solo dieci anni fa non era realistico, c’erano veramente pochi esempi e nelle aziende del digitale non c’era la presenza di sindacati come in quelle tradizionali. “Ad oggi non c’è ancora un modo forte e consolidato con cui sindacalizzare i data worker. Si tratta spesso di persone che lavorano in subappalti di subappalti. Hanno pochissimo potere e per loro è molto complicato organizzarsi. Adesso che i rider hanno ottenuto molte più tutele rispetto a dieci anni fa, i sociologi del lavoro e gli accademici hanno cominciato a occuparsi dei data worker”.

    Un esempio virtuoso di sindacalizzazione lo racconta Casilli, spiegando che in Germania i sindacati sono molto attivi al fianco dei lavoratori del settore digitale già dal 2016. Anche in Kenya, dove per esempio la OpenAi ha fatto addestrare ChatGpt, ci sono grandissimi movimenti sindacali che coinvolgono i lavoratori del settore. Anche in Brasile ci sono pressioni per approvare norme che contengano misure per tutelarli. In Italia la situazione è meno rosea, conclude Casilli. “È difficile far vedere una popolazione invisibile”.

    Alessio De Luca, responsabile del Progetto lavoro 4.0 Cgil nazionale, spiega perché è così complicato anche per il sindacato tradizionale intervenire a tutela di questo tipo di professioni. Si tratta di un gruppo molto complesso, variegato ed esteso, e ogni giorno nascono e crescono una serie di nuove figure difficili da inquadrare, che lavorano direttamente con le piattaforme e non sono facilissimi da intercettare e organizzare. “Attraverso Apiqa, la nostra associazione che si occupa di lavoro autonomo, stiamo provando a stilare una serie di proposte normative. Le difficoltà maggiori riguardano l’individuazione della remunerazione e dei minimi salariali di questo ‘mondo di mezzo’. Bisognerebbe avere più strumenti possibili, a partire dai controlli: chi deve intervenire? Il garante? L’ispettorato del lavoro?”, si domanda De Luca. “Al momento stiamo immaginando proposte normative come l’equo compenso e trattamenti welfare e previdenziali. Il problema però è che si ragiona sempre dentro vecchi perimetri”.

    A livello europeo, spiega Aloisi, l’attenzione su questi fenomeni è cresciuta. Tra marzo e aprile è stata approvata ladirettiva piattaforme, la direttiva europea per il miglioramento delle condizioni dei lavoratori coinvolti nel settore e che in parte tutela i sottoproletari dei dati. La strada da seguire rimane quella dell’uscita dall’invisibilità, per poter agire e trovare soluzioni concrete al precariato e allo sfruttamento.

    https://www.internazionale.it/reportage/laura-melissari/2024/08/06/intelligenza-artificiale-lavoratori-sfruttamento
    #travail #conditions_de_travail #AI #IA #intelligence_artificielle #prolétariat #nouveau_prolétariat #data_labeling #données #soustraitance #sous-traitance #délocalisation #data_workers #travail_invisible

  • À France Travail, l’essor du contrôle algorithmique
    https://www.laquadrature.net/2024/06/25/a-france-travail-lessor-du-controle-algorithmique

    « Score de suspicion » visant à évaluer l’honnêteté des chômeur·ses, « score d’employabilité » visant à mesurer leur « attractivité », algorithmes de détection des demandeur·ses d’emploi en situation de « perte de confiance », en « besoin de redynamisation » ou encore à…

    #Données_personnelles #Surveillance

    • Au nom de la « rationalisation » de l’action publique et d’une promesse « d’accompagnement personnalisé » et de « relation augmentée », se dessine ainsi l’horizon d’un service public de l’#emploi largement automatisé. Cette automatisation est rendue possible par le recours à une myriade d’#algorithmes qui, de l’inscription au suivi régulier, se voient chargés d’analyser nos #données afin de mieux nous évaluer, nous trier et nous classer. Soit une extension des logiques de #surveillance de masse visant à un #contrôle_social toujours plus fin et contribuant à une déshumanisation de l’accompagnement social.

      De la CAF à France Travail : vers la multiplication des « scores de suspicion »

      C’est, ici encore, au nom de la « lutte contre la fraude » que fut développé le premier algorithme de profilage au sein de #France_Travail. Les premiers travaux visant à évaluer algorithmiquement l’honnêteté des personnes sans emploi furent lancés dès 2013 dans la foulée de l’officialisation par la CAF de son algorithme de notation des allocataires. Après des premiers essais en interne jugés « frustrants »1, France Travail – à l’époque Pôle Emploi – se tourne vers le secteur privé. C’est ainsi que le développement d’un outil de détermination de la probité des demandeur·ses d’emploi fut confié à Cap Gemini, une multinationale du CAC402.

      La notation des chômeur·ses est généralisée en 2018.

      #chômeurs #guerre_aux_pauvres