*Dans les labos, des petits arrangements avec la science*

enuncombatdouteux CC BY-NC-ND 2/10/2017

Dans les labos, des petits arrangements avec la science

▻http://www.lemonde.fr/sciences/article/2017/10/02/dans-les-labos-des-petits-arrangements-avec-la-science_5195085_1650684.html

L’impératif de productivité scientifique augmente le risque de mauvaises pratiques. Ce sont le plus souvent les images et les statistiques qui sont manipulées par les chercheurs.

http://img.lemde.fr/2017/10/02/0/0/2667/1331/644/322/60/0/06df767_8700-5cxohd.7dik40lik9.jpg

Copier-coller d’images, bidouillage statistique, exagération des résultats, méconnaissance des méthodes utilisées, lenteur, voire refus, à corriger des erreurs… les arrière-cours des laboratoires ne sont pas toujours reluisantes.
En juin 2016, dans le journal mBio, un criblage de plus de 20 000 articles tirés de 40 journaux scientifiques a repéré près de 4 % de problèmes avec des images présentes à l’appui des démonstrations. Le taux dépassant 12 % pour un journal de l’échantillon. Les « erreurs » vont de la simple duplication de parties d’images à la retouche frauduleuse en passant par le repositionnement ou l’inversion de certaines parties. Des pratiques pas forcément pendables mais qui demandent à être justifiées.
La base de données de Retraction Watch, un site lancé en 2010 pour suivre l’actualité des retraits ou corrections d’articles, recense plus de cas problématiques pour « manipulation » d’images que pour « plagiat de texte » (le plagiat d’images existant également !) : 294 plagiats d’articles pour 422 duplications, 305 manipulations et 134 falsifications d’images. Un autre site, PubPeer, lancé en 2012 pour accueillir des discussions anonymes sur des articles déjà publiés, s’est vite transformé en forum de la traque des images manipulées. Ce qui a conduit à bien des corrections et retraits d’articles.
L’un des drames est « que les reviewers ne regardent pas les images », constate Elisabeth Bik, microbiologiste de la société de génomique microbienne uBiome en Californie et coauteure de l’étude de mBio. Elle pointe aussi un autre problème : l’absence de réactions des auteurs ou des journaux qui publient les articles litigieux. Elle estime avoir signalé plus de 800 cas qui ont conduit à une trentaine de retraits, « mais, dans la grande majorité des cas, je n’ai pas eu de réponses ».
La spécialiste, pour expliquer ces pratiques, plus ou moins discutables, évoque « l’erreur, le manque de temps pour faire les expériences de contrôle, la précipitation à publier ou l’envie de cacher des choses ». Elle est aussi tombée sur des récidivistes ayant plus d’une vingtaine d’images retouchées, preuve de dysfonctionnements plus graves. Dans un nouvel article à paraître, elle a mis en avant des corrélations. La pression à publier augmente le risque de mauvaises pratiques, tandis qu’un contrôle « social » plus important, c’est-à-dire l’existence de règles ou de sanctions, le limite. Pour résorber ces problèmes, la chercheuse est engagée dans la mise au point de logiciels de détection automatique de retouche d’images, dont commencent à se doter les éditeurs.
Les chercheurs savent aussi s’arranger avec les statistiques, l’outil qui leur sert à analyser leurs résultats leur permet surtout de clamer une découverte (l’absence de découverte faisant rarement l’objet de publication). Le 1er septembre, plus de 70 chercheurs ont appelé dans Nature Human Behaviour à « redéfinir la significativité statistique ». Pour eux, « les standards statistiques pour revendiquer une découverte sont tout simplement trop bas dans beaucoup de domaines de la science ». Et ils appellent à relever ces standards. A commencer par le plus connu d’entre eux, la valeur-p. Le « standard » veut qu’un test statistique mesurant la différence entre deux hypothèses et donnant une valeur-p inférieure à 5 %, soit significatif et donc digne d’être publié.
Premier problème, depuis des années, des chercheurs ont alerté sur le fait que certains ignorent la définition même de cette valeur-p. Beaucoup croient ainsi que ce paramètre désigne la probabilité qu’un résultat expérimental soit un faux positif. Mais ce n’est pas vraiment le cas.
David Colquhoun de l’University College à Londres l’a expliqué en 2014 dans un article de la Royal Society, avec l’exemple d’un test de détection d’une maladie. Une valeur-p de 5 % signifie que, si quelqu’un n’est pas malade, alors le test trouvera qu’il a 5 % de chance de l’être (faux positif). Mais cela ne dit pas qu’elle est la probabilité d’être malade. En prenant un taux de prévalence de 90 % par exemple pour cette maladie le chercheur calcule que le taux réel de faux positif atteint 36 % ! La valeur-p seule peut donc induire de fausses interprétations. Néanmoins, plus on fixe un seuil bas, plus ce taux de faux positif baissera. Idem si on augmente la taille de l’échantillon.
Mais alors que la génétique ou la physique ont fixé des seuils autrement plus drastiques pour p (dix à cent millionièmes), des disciplines comme la recherche biomédicale, la psychologie, l’économie… restent accrochées à ce 0,05. En mars 2016, une étude de John Ioannidis dans JAMA notait la présence de valeur-p dans un tiers des résumés d’articles parus en 2014 dans 151 revues médicales les plus importantes et dans près de 40 % des essais cliniques. Petite bizarrerie, déjà constatée par d’autres : les valeurs-p rapportées ont une forte tendance à se concentrer autour de 0,05, le fameux seuil.
C’est sans doute que les chercheurs sont passés maître dans l’art du « p-hacking », c’est-à-dire l’art de trouver la bonne méthode afin de tomber sous le seuil fatidique. « Certains surexploitent les données et essaient jusqu’à ce que ça marche », explique Bertrand Thirion, spécialiste en neurosciences à l’Inria. « Ce n’est pas de la triche délibérée mais, comme les chercheurs ont fourni beaucoup d’efforts pour faire les expériences, ils veulent trouver quelque chose et font “vibrer” les méthodes. » Chris Chambers, dans son livre The Seven Deadly Sins of Psychology « Les sept péchés mortels de la psychologie » (Princeton University Press, non traduit), détaille avec regret ces mauvaises pratiques. « Les effets du p-hacking sont clairs, remplissant la littérature scientifique avec des hypothèses faites après l’expérience, des fausses découvertes, et des impasses de recherche », écrit-il.
Pour améliorer la fiabilité, les auteurs de l’appel de Nature Human Behaviour recommandent dans un premier temps de baisser le seuil à 0,005 et évoquent aussi l’existence d’autres critères ou méthodes statistiques. Ce problème de la valeur-p est fortement lié à une plaie de la recherche, « la crise de la reproductibilité ».
L’art de tordre la réalité
Le « spin » est le nom donné par les Anglo-Saxons à la pratique qui permet de présenter les conclusions sous un jour plus beau que la réalité. Il peut se faire lors du passage de l’article au communiqué de presse, mais aussi de l’article scientifique à son résumé par les auteurs, comme l’ont mis en évidence de nombreux travaux.
Ainsi le 11 septembre, dans PLOS Biology, une équipe de l’université de Sydney a analysé 35 études sur le spin et a confirmé que la pratique est répandue. Dans les articles rapportant des essais cliniques, plus de la moitié, 57 %, présente des gauchissements de la réalité. En 2014, une autre étude constatait que 40 % des communiqués de presse contiennent des exagérations et que, dans ces cas-là, 58 % des articles de journaux mentionnant ces travaux exagèrent aussi…
Les tours de passe-passe consistent à surinterpréter les conclusions, ou à exagérer la portée d’un test statistique. Ou bien à mettre en avant un résultat secondaire pour suggérer un bénéfice d’un traitement. Ou encore à attribuer, sans preuve, une cause à un effet.

enuncombatdouteux CC BY-NC-ND