• Comment les éditeurs scientifiques surveillent les chercheurs
    https://www.lemonde.fr/sciences/article/2022/01/17/comment-les-editeurs-scientifiques-surveillent-les-chercheurs_6109840_165068

    Ces dernières années, les grands éditeurs de publications scientifiques ont investi massivement dans la collecte de données. Les chercheurs craignent que la recherche s’enfonce dans une course à la performance.

    Jonny Saunders, neuroscientifique de l’université d’Oregon (Etats-Unis), a fait cet hiver une découverte surprenante. Depuis son poste de travail, il se rend un soir de décembre 2021 grâce au réseau de sa faculté sur le site de l’éditeur scientifique de renom #Elsevier. « J’avais entendu parler de ces éditeurs scientifiques qui collectaient des données sur leurs utilisateurs, raconte-t-il au Monde. Je me suis simplement demandé par quels moyens ils le faisaient et si ces traqueurs apparaissaient dans le code de leurs pages Web. » Depuis quelque temps, la communauté scientifique s’inquiète en effet d’une nouvelle pratique des grands éditeurs : la collecte de données de plus en plus fines sur les chercheurs et leurs travaux.

    Ce soir-là, Jonny Saunders ouvre alors un texte dans le logiciel en ligne d’Elsevier et, après quelques rapides manipulations, se rend compte qu’il est « observé » par trois outils différents qui envoient en temps réel des informations à des serveurs tiers.

    « L’un d’entre eux communiquait aux serveurs d’Elsevier des données identifiantes, notamment le proxy de l’université depuis laquelle j’étais connecté, ce qui leur permet de m’identifier précisément », se souvient-il. Plus loin, il remarque entre les lignes de code que des « événements » sont aussi décrits et récoltés par l’éditeur et renseignent ce dernier de façon très précise sur son comportement de lecture. Des informations différentes sont alors codées s’il place son curseur sur la partie haute du texte, s’il réduit la fenêtre du navigateur, s’il reste longtemps sur la page ou non, etc.

    Elsevier préfère esquiver la controverse
    Surpris par la précision des données collectées par Elsevier, Jonny Saunders envoie un tweet dans la foulée afin d’alerter ses pairs. Mais un mois plus tard, hormis une petite vague d’indignation restée cantonnée à la communauté scientifique anglophone, la nouvelle n’a pas fait grand bruit. Nous avons sollicité Elsevier pour y réagir.
    L’éditeur néerlandais refuse de « commenter spécifiquement » ce que Jonny Saunders a révélé mais reconnaît l’existence d’une collecte importante de données sur ses utilisateurs. Et ce à plusieurs fins, assure l’entreprise : « Nous utilisons des outils de suivi de données afin de fournir et d’améliorer nos services, (…) de nous aider à authentifier les utilisateurs, de sécuriser nos services, de détecter la fraude et les abus, (…) de faciliter l’efficacité et la productivité dans la recherche. » Elsevier mentionne aussi, sans y faire directement référence, les procédés très précis décelés par Jonny Saunders : « Les données que nous collectons pour tester, analyser et optimiser la taille et les positions des boutons de nos pages Web ne sont pas directement identifiables par les utilisateurs. »

    • Derrière ces quelques lignes de défense, Elsevier semble assumer le virage pris ces dernières années par les leaders du marché de la publication scientifique, lesquels se tournent massivement vers la collecte et l’utilisation de données

      En 2016, le groupe britannique RELX, maison-mère d’Elsevier, avait d’ailleurs annoncé, dans un rapport annuel, le « développement organique d’outils analytiques basés sur l’information de plus en plus sophistiqués (…) », passant d’un simple groupe d’édition à une société fondée sur la technologie, le contenu et les outils analytiques »

      « Datafication » de la publication scientifique

      Pour Jefferson Pooley, professeur en sciences de l’information et de la communication à l’université Muhlenberg (Etats-Unis), la récente affaire impliquant Elsevier est la preuve irréfutable de cette « datafication » de la publication scientifique. « A ma connaissance, il n’y a eu aucune autre découverte de ce genre de surveillance des comportements dans le monde de la recherche qui soit aussi précise, aussi granulaire », explique-t-il.

      Dans un travail de recherche intitulé « Surveillance Publishing » et publié en novembre 2021, Jefferson Pooley date les prémices de cet appétit des éditeurs pour les données au début des années 2000. Alors que les modèles d’affaires des Gafam, à l’instar de celui de Google, se construisent autour de la « data » comme marchandise, les éditeurs scientifiques y voient aussi de potentiels profits.

      Ceux qui dominent aujourd’hui le marché ont acquis ces dernières années des sociétés capables d’amasser toute sorte de données, notamment pour mesurer l’impact et la performance d’un travail de recherche et de son auteur. Elsevier a ainsi racheté l’entreprise Pure, en 2012, lui permettant de collecter des données sur les performances des universitaires ou encore Plum Analytics, en 2017, pour quantifier l’impact des publications.

      Ces informations, ainsi que celles sur les comportements des chercheurs, se distinguent par leur précision de celles aspirées traditionnellement par les acteurs du numérique auprès de quiconque navigue sur Internet. D’autant que les scientifiques n’ont, en raison de la structure oligopolistique du marché de la publication, bien souvent pas d’autre choix que de passer par les éditeurs leaders et d’obéir à leurs règles. Nombre d’entre eux ignorent que certains navigateurs ou outils pourraient leur éviter d’être suivis, ou ignorent l’existence même de tels outils de collecte.

      Certaines de ces données sont parfois monétisées directement par les éditeurs à travers la vente de services, comme celui de Pure, aux universités. Mais il est difficile de déterminer l’usage qu’en ont les maisons d’édition. « Nous ne connaissons pas l’éventail complet des métriques que ces éditeurs collectent, indique d’ailleurs Jefferson Pooley, qui pointe du doigt un système particulièrement opaque. Nous savons qu’ils collectent les métriques traditionnelles (indicateurs de citation, nombre de téléchargements, de lectures…) et nous avons maintenant de bonnes raisons de penser que d’autres données sont surveillées, notamment la façon dont nous, chercheurs, lisons un article, le temps que nous y passons, les surlignages que nous utilisons, etc. »

      Vers une science qui marche à la performance

      Toujours dans le but de mieux mesurer la performance de la recherche, les maisons d’édition scientifique se tournent ainsi vers des outils de plus en plus précis.
      Depuis peu, la start-up américaine Scite, déjà partenaire de leaders de la publication comme Wiley ou Sage, propose un service inédit de collecte de données sur les citations scientifiques. Il permet à ses clients de déterminer si, quand un article est cité, il l’est parce qu’il est approuvé ou au contraire critiqué par l’auteur et, de cette façon, se soustrait aux problèmes de précision que rencontrent les métriques traditionnelles.

      Jaele Bechis, chercheuse au Bureau d’économie théorique et appliquée de l’université de Lorraine, a longuement étudié, dans le cadre de sa thèse et de ses recherches, le marché de la publication scientifique à l’ère du numérique. « Il faut garder en tête que ce sont des maisons d’édition commerciales dont l’objectif est de faire du profit, décrit-elle. Elles mettent aujourd’hui en place des stratégies que les grandes entreprises dans les autres domaines adoptent également. » Et si certaines de ces données « peuvent servir à la communauté scientifique », des universitaires réfractaires avancent qu’une marchandisation de la science, accélérée par ces stratégies de « datafication », est à craindre.

      Selon eux, affûter aussi précisément ces facteurs d’impact et aller jusqu’à inspecter les comportements des chercheurs reviendrait à motiver la production scientifique par la performance et non plus par la recherche de connaissances. Ainsi, les domaines les plus à la mode, les travaux les plus spectaculaires et les auteurs les plus lus auraient davantage de chance d’être financés et publiés tandis que d’autres, moins en vogue, seraient délaissés par ce système, avance le chercheur Jefferson Pooley.

      « Les agences nationales de recherche, en particulier dans le monde anglophone, ont déjà commencé à accentuer l’importance des facteurs d’impact, justifie-t-il. Il est probable que cette tendance s’intensifiera à mesure que les éditeurs investiront dans les données. »

      en v’là du brain drain qu’il est cool

      #sciences #data #datafication #marchandisation #productivité