person:john ioannidis

  • La rigueur scientifique à l’épreuve de la reproductibilité

    http://www.lemonde.fr/sciences/article/2017/10/02/la-rigueur-scientifique-a-l-epreuve-de-la-reproductibilite_5195088_1650684.h

    Les résultats d’une expérience doivent être reproduits pour être validés scientifiquement. Pourtant, ce n’est pas toujours le cas.

    Il y a péril en la demeure. Le « système immunitaire de la science » connaît des ratés, comme le constate le psychologue Chris Chambers dans son livre, The Seven Deadly Sins of Psychology (« Les sept péchés mortels de la psychologie », Princeton University Press, non traduit). Le nom savant de cette défense est « reproductibilité », c’est-à-dire la possibilité de refaire et confirmer une ­expérience. « La reproductibilité et la réplication sont les pierres angulaires de la science. Sans elles, nous n’avons aucun moyen de savoir quelles découvertes sont vraies et lesquelles sont causées par le jeu du hasard, de l’erreur ou de la fraude, précise Chris Chambers, de l’université de Cardiff. On ne vole pas dans un avion qui n’a pas été rigoureusement testé, encore et encore. Il en va de même pour toutes les branches de la science. »

    En 2014, devant l’impossibilité de plusieurs laboratoires à répéter un protocole prétendant obtenir des cellules souches pluripotentes, l’équipe japonaise qui avait clamé la découverte dans Nature est contrainte d’avouer qu’elle a fraudé. La biologiste fautive, Haruko Obokata, a démissionné, et l’un de ses coauteurs, Yoshiki Sasai, pourtant innocenté, se suicidera.

    Idem pour une technique d’édition du génome, qui promettait de faire mieux que la très en ­vogue technique Crispr-Cas9. L’article, publié par Nature Biotechnology en 2016, a été retiré en août, après l’échec de plusieurs équipes à reproduire le résultat.

    Pourtant, en 2005, John Ioannidis, de l’université Stanford, ébranlait la communauté par un article dans PloS Medicine suggérant que « la plupart des résultats scientifiques sont faux », car impossibles à reproduire. De nombreuses expériences de réplication ont depuis été conduites, montrant l’ampleur de la défaillance du système. En 2012, une équipe de la société de biotechnologie Amgen expliquait n’avoir retrouvé les résultats publiés que dans six cas sur 53 en oncologie.

    En 2015, la première initiative du Centre pour la science ouverte aux Etats-Unis tente de reproduire 100 expériences de psychologie et n’y parvient que dans 39 cas. Deux ans plus tard, un programme identique de réplication en cancérologie publie ses premiers résultats. Sur sept études, quatre ont été reproduites, une autre n’a pu l’être et deux restent impossibles à interpréter. Reste encore 29 études à vérifier dans ce projet. Souvent, c’est la mauvaise interprétation de tests statistiques qui les rend fragiles à répliquer.

    Preuve supplémentaire du ­malaise, en mai 2016, Nature ­publiait un sondage dévastateur : 70 % des 1 576 répondants déclarent avoir échoué à reproduire un résultat et même 50 % à refaire leur propre expérience…

    L’heure est si grave qu’en janvier 2017, dix auteurs signent un « Manifeste pour la science reproductible », dans Nature Human Behaviour, appelant à plus de ­rigueur dans les méthodes, les comptes rendus et l’évaluation de la recherche.

    La « crise », comme elle a été baptisée, ne touche pas seulement la psychologie ou l’oncologie. En imagerie cérébrale par IRM fonctionnelle, plusieurs études ont montré que des activations de pixels jugées significatives sont en réalité des faux positifs. L’une de ces études montre qu’en fonction des méthodes utilisées, les images produites peuvent être fort différentes. « Dans mon équipe, nous testons nos méthodes sur plusieurs jeux de données afin d’éviter ces pièges », explique Bertrand Thirion, de l’Institut ­national de recherche en informatique et en automatique.

    En chimie, Raphaël Lévy de l’université de Liverpool cite, dans la revue Médecine/Sciences du 18 septembre, le cas de trois équipes dont les résultats publiés ne sont toujours pas corrigés malgré ses contestations et celles d’autres chercheurs auprès de la revue. « Le système n’encourage pas à la critique ni à la réplication des résultats. Il faut être un peu fou pour s’engager dans ces processus, même si ça ne nuit pas à ma carrière »,témoigne le chercheur. Les revues scientifiques ne sont en effet pas toujours promptes à corriger les erreurs publiées, qui entament leur réputation.

    « Le public a le droit de fonder sa confiance en la science sur la réalité et non sur la fiction. La science est sans aucun doute le meilleur moyen de découvrir la vérité sur le monde et de prendre des décisions rationnelles. Mais cela ne veut pas dire qu’elle ne peut pas ou ne ­devrait pas être améliorée. Nous devons trouver des solutions pratiques face à ses défauts », estime Chris Chambers.

    La liste qu’il propose dans son ­livre ou qui est reprise par le manifeste qu’il a cosigné fourmille d’idées. Comme relever les exigences en matière de rigueur statistique. Ou favoriser la transparence dans les procédures, en donnant accès aux données brutes, images, chiffres, méthodes utilisées… « Il y a encore des freins face à cette ouverture. Pour certains, les données c’est le pouvoir. Pour d’autres, c’est la peur qu’on trouve des défauts dans leur travail, ­regrette Bertrand Thirion. Mais justement, c’est bien de trouver des erreurs, pour pouvoir les corriger ! » Chris Chambers et d’autres ont d’ailleurs lancé en 2016 une charte pour les relecteurs d’articles qui s’engagent à n’évaluer des manuscrits que si les auteurs transmettent leurs données.

    Une autre solution consiste dans les préenregistrements d’expérience, comme pratiqué depuis plusieurs années pour les essais cliniques. Les chercheurs doivent détailler leur protocole et les ­méthodes qu’ils utiliseront pour leur expérience, afin d’éviter la tentation d’adapter la méthode ou les tests aux observations. Des sites comme l’Open Science Framework, lancé par le Centre pour la science ouverte, permettent ­désormais de remplir facilement ce genre de recommandations. Autre idée, défendue par provocation par John Ioannidis en 2014 : sortir des « incitations » à publier à outrance afin de promouvoir les études de réplication, le partage des données…

    « Nous avons la lourde responsabilité publique de veiller à ce que la prochaine génération de scientifiques ne souffre pas des problèmes de ma génération. Ce n’est que ­lorsque la science est aussi ouverte et solide que possible qu’elle peut apporter le maximum d’avantages à l’humanité », ­conclut Chris Chambers.

    Anticiper les problèmes

    En écologie, ce n’est pas encore la crise de la reproductibilité mais on s’y prépare. Un article, disponible depuis août sur BioRxiv, relate la collaboration de 14 laboratoires en Europe pour tester la robustesse de leur domaine face à cette difficulté à valider certains résultats publiés.

    L’idée était de tester si la même expérience, à savoir l’effet d’une légumineuse sur la croissance d’une graminée plantée conjointement, pouvait être strictement reproduite dans différents laboratoires dans les mêmes conditions. « On avait quelques indices que la reproductibilité est inférieure à celle attendue, explique Alexandru Milcu de l’Ecotron à Montpellier et du Centre d’écologie fonctionnelle et évolutive (CNRS), à l’origine de cette collaboration. Il y a des conditions de laboratoire spécifiques qui nous échappent, comme la nature du micro-environnement, le rôle des expérimentateurs… »

    Finalement, cette variabilité a bien été constatée. Mais l’équipe a aussi trouvé une parade consistant à multiplier les expériences avec des plantes aux génotypes différents. C’est contre-intuitif, mais cette variabilité ajoutée et contrôlée « noie » en quelque sorte les spécificités du lieu et augmente ainsi la reproductibilité des expériences. « Il faudra répéter ce genre d’étude. Ce qui au départ était une question de curiosité est devenu fascinant ! », note le chercheur.

  • Dans les labos, des petits arrangements avec la science

    http://www.lemonde.fr/sciences/article/2017/10/02/dans-les-labos-des-petits-arrangements-avec-la-science_5195085_1650684.html

    L’impératif de productivité scientifique augmente le risque de mauvaises pratiques. Ce sont le plus souvent les images et les statistiques qui sont manipulées par les chercheurs.

    Copier-coller d’images, bidouillage statistique, exagération des résultats, méconnaissance des méthodes utilisées, lenteur, voire refus, à corriger des erreurs… les arrière-cours des laboratoires ne sont pas toujours reluisantes.

    En juin 2016, dans le journal mBio, un criblage de plus de 20 000 articles tirés de 40 journaux scientifiques a repéré près de 4 % de problèmes avec des images présentes à l’appui des démonstrations. Le taux dépassant 12 % pour un journal de l’échantillon. Les « erreurs » vont de la simple duplication de parties d’images à la retouche frauduleuse en passant par le repositionnement ou l’inversion de certaines parties. Des pratiques pas forcément pendables mais qui demandent à être justifiées.

    La base de données de Retraction Watch, un site lancé en 2010 pour suivre l’actualité des retraits ou corrections d’articles, recense plus de cas problématiques pour « manipulation » d’images que pour « plagiat de texte » (le plagiat d’images existant également !) : 294 plagiats d’articles pour 422 duplications, 305 manipulations et 134 falsifications d’images. Un autre site, PubPeer, lancé en 2012 pour accueillir des discussions anonymes sur des articles déjà publiés, s’est vite transformé en forum de la traque des images manipulées. Ce qui a conduit à bien des corrections et retraits d’articles.

    L’un des drames est « que les reviewers ne regardent pas les images », constate Elisabeth Bik, microbiologiste de la société de génomique microbienne uBiome en Californie et coauteure de l’étude de mBio. Elle pointe aussi un autre problème : l’absence de réactions des auteurs ou des journaux qui publient les articles litigieux. Elle estime avoir signalé plus de 800 cas qui ont conduit à une trentaine de retraits, « mais, dans la grande majorité des cas, je n’ai pas eu de réponses ».

    La spécialiste, pour expliquer ces pratiques, plus ou moins discutables, évoque « l’erreur, le manque de temps pour faire les expériences de contrôle, la précipitation à publier ou l’envie de cacher des choses ». Elle est aussi tombée sur des récidivistes ayant plus d’une vingtaine d’images retouchées, preuve de dysfonctionnements plus graves. Dans un nouvel article à paraître, elle a mis en avant des corrélations. La pression à publier augmente le risque de mauvaises pratiques, tandis qu’un contrôle « social » plus important, c’est-à-dire l’existence de règles ou de sanctions, le limite. Pour résorber ces problèmes, la chercheuse est engagée dans la mise au point de logiciels de détection automatique de retouche d’images, dont commencent à se doter les éditeurs.

    Les chercheurs savent aussi s’arranger avec les statistiques, l’outil qui leur sert à analyser leurs résultats leur permet surtout de clamer une découverte (l’absence de découverte faisant rarement l’objet de publication). Le 1er septembre, plus de 70 chercheurs ont appelé dans Nature Human Behaviour à « redéfinir la significativité statistique ». Pour eux, « les standards statistiques pour revendiquer une découverte sont tout simplement trop bas dans beaucoup de domaines de la science ». Et ils appellent à relever ces standards. A commencer par le plus connu d’entre eux, la valeur-p. Le « standard » veut qu’un test statistique mesurant la différence entre deux hypothèses et donnant une valeur-p inférieure à 5 %, soit significatif et donc digne d’être publié.

    Premier problème, depuis des années, des chercheurs ont alerté sur le fait que certains ignorent la définition même de cette valeur-p. Beaucoup croient ainsi que ce paramètre désigne la probabilité qu’un résultat expérimental soit un faux positif. Mais ce n’est pas vraiment le cas.

    David Colquhoun de l’University College à Londres l’a expliqué en 2014 dans un article de la Royal Society, avec l’exemple d’un test de détection d’une maladie. Une valeur-p de 5 % signifie que, si quelqu’un n’est pas malade, alors le test trouvera qu’il a 5 % de chance de l’être (faux positif). Mais cela ne dit pas qu’elle est la probabilité d’être malade. En prenant un taux de prévalence de 90 % par exemple pour cette maladie le chercheur calcule que le taux réel de faux positif atteint 36 % ! La valeur-p seule peut donc induire de fausses interprétations. Néanmoins, plus on fixe un seuil bas, plus ce taux de faux positif baissera. Idem si on augmente la taille de l’échantillon.

    Mais alors que la génétique ou la physique ont fixé des seuils autrement plus drastiques pour p (dix à cent millionièmes), des disciplines comme la recherche biomédicale, la psychologie, l’économie… restent accrochées à ce 0,05. En mars 2016, une étude de John Ioannidis dans JAMA notait la présence de valeur-p dans un tiers des résumés d’articles parus en 2014 dans 151 revues médicales les plus importantes et dans près de 40 % des essais cliniques. Petite bizarrerie, déjà constatée par d’autres : les valeurs-p rapportées ont une forte tendance à se concentrer autour de 0,05, le fameux seuil.

    C’est sans doute que les chercheurs sont passés maître dans l’art du « p-hacking », c’est-à-dire l’art de trouver la bonne méthode afin de tomber sous le seuil fatidique. « Certains surexploitent les données et essaient jusqu’à ce que ça marche », explique Bertrand Thirion, spécialiste en neurosciences à l’Inria. « Ce n’est pas de la triche délibérée mais, comme les chercheurs ont fourni beaucoup d’efforts pour faire les expériences, ils veulent trouver quelque chose et font “vibrer” les méthodes. » Chris Chambers, dans son livre The Seven Deadly Sins of Psychology « Les sept péchés mortels de la psychologie » (Princeton University Press, non traduit), détaille avec regret ces mauvaises pratiques. « Les effets du p-hacking sont clairs, remplissant la littérature scientifique avec des hypothèses faites après l’expérience, des fausses découvertes, et des impasses de recherche », écrit-il.

    Pour améliorer la fiabilité, les auteurs de l’appel de Nature Human Behaviour recommandent dans un premier temps de baisser le seuil à 0,005 et évoquent aussi l’existence d’autres critères ou méthodes statistiques. Ce problème de la valeur-p est fortement lié à une plaie de la recherche, « la crise de la reproductibilité ».

    L’art de tordre la réalité

    Le « spin » est le nom donné par les Anglo-Saxons à la pratique qui permet de présenter les conclusions sous un jour plus beau que la réalité. Il peut se faire lors du passage de l’article au communiqué de presse, mais aussi de l’article scientifique à son résumé par les auteurs, comme l’ont mis en évidence de nombreux travaux.

    Ainsi le 11 septembre, dans PLOS Biology, une équipe de l’université de Sydney a analysé 35 études sur le spin et a confirmé que la pratique est répandue. Dans les articles rapportant des essais cliniques, plus de la moitié, 57 %, présente des gauchissements de la réalité. En 2014, une autre étude constatait que 40 % des communiqués de presse contiennent des exagérations et que, dans ces cas-là, 58 % des articles de journaux mentionnant ces travaux exagèrent aussi…

    Les tours de passe-passe consistent à surinterpréter les conclusions, ou à exagérer la portée d’un test statistique. Ou bien à mettre en avant un résultat secondaire pour suggérer un bénéfice d’un traitement. Ou encore à attribuer, sans preuve, une cause à un effet.

  • Économie : des études trop souvent faibles statistiquement
    http://theconversation.com/economie-des-etudes-trop-souvent-faibles-statistiquement-82949

    Les auteurs estiment qu’environ la moitié des articles scientifiques publiés se révèle incorrecte parce qu’ils manquent de puissance statistique, s’appuient sur des outils économétriques inadaptés, sont l’objet de biais et parfois même de malhonnêteté intellectuelle. John Ioannidis et Hristos Doucouliagos (2013) ont aussi montré que 88 % des études économiques obtenaient des résultats conformes aux hypothèses formulées par leurs auteurs, un taux cinq fois supérieur à celui des recherches de la NASA par exemple (Fanelli, 2010). Au final, Miguel et Christensen (2017) indiquent qu’un tiers des recherches en économie a été réfuté par d’autres travaux ultérieurement.

    #économie #science #épistémiologie

  • The Trouble With Scientists - Issue 24 : Error
    http://nautil.us/issue/24/error/the-trouble-with-scientists

    Sometimes it seems surprising that science functions at all. In 2005, medical science was shaken by a paper with the provocative title “Why most published research findings are false.”1 Written by John Ioannidis, a professor of medicine at Stanford University, it didn’t actually show that any particular result was wrong. Instead, it showed that the statistics of reported positive findings was not consistent with how often one should expect to find them. As Ioannidis concluded more recently, “many published research findings are false or exaggerated, and an estimated 85 percent of research resources are wasted.”2 It’s likely that some researchers are consciously cherry-picking data to get their work published. And some of the problems surely lie with journal publication policies. But the (...)

  • Un chercheur dénonce l’inutilité de nombreux travaux scientifiques - Passeur de sciences
    http://alireailleurs.tumblr.com/post/101831266895

    Le journaliste scientifique Pierre Barthélémy sur son blog revient sur l’article publié par le professeur à Stanford, John Ioannidis, dans Plos Medecine, sur « Pourquoi la plupart des découvertes publiées sont fausses ». Nous sommes submergés par les articles scientifiques, estime le professeur de Stanford alors que les découvertes importantes, elles, sont bien plus modestes. Pour lui, trop de résultats sont trop souvent des faux positifs que l’on ne peut reproduire, à l’image de ce que disait récemment la juriste et professeure de bioéthique Michelle Meyer et le psychologue Christopher Chabris dans Social Psychology. John Ioannidis, directeur du Meta Centre de #recherche sur l’innovation de Stanford, propose d’inciter à la reproduction des travaux pour s’assurer que les effets mesurés sont réels par un (...)

    #science

  • Un chercheur dénonce l’inutilité de nombreux travaux scientifiques | Passeur de sciences
    http://passeurdesciences.blog.lemonde.fr/2014/10/29/un-chercheur-denonce-linutilite-de-nombreux-travaux-s

    On le comprend d’entrée de jeu, le but de John Ioannidis n’est pas de démolir la #science ni ceux qui la font à grands coups de démonte-pneu. Son objectif consiste à améliorer le fonctionnement de la #recherche car la marge de manœuvre, suggère-t-il, est grande. Dans l’énoncé du diagnostic, le chercheur américain, spécialiste de questions de santé, ne fait pas dans le diplomatique mais plutôt dans le direct. Il a recensé, entre 1996 et 2001, plus de 25 millions d’#études scientifiques publiées, signées par quelque 15 millions de personnes de par le monde. Une quantité phénoménale d’articles, donc, à comparer avec un nombre de #découvertes importantes beaucoup plus modeste.

    #selon_une_étude_récente

  • Les chercheurs en psychologie s’écharpent, et nous ne devrions pas nous en laver les mains
    http://www.slate.fr/story/91163/chercheurs-psychologie-replication

    La « crise de la réplication » n’est absolument pas spécifique à la psychologie sociale, aux sciences psychologiques, ni même aux sciences sociales. Selon une formule célèbre de John Ioannidis, épidémiologiste de Stanford et remontant à près de dix ans, « la plupart des résultats de recherche sont faux, dans la plupart des protocoles et dans la plupart des disciplines ».

    Depuis, des échecs de réplication et autres failles majeures ont été détectés à travers toute la science, que ce soit dans des recherches sur le cancer, la génétique de maladies complexes comme l’obésité et les troubles cardiovasculaires, les cellules souches et dans des études sur les origines de l’univers. Au début de l’année, les National Institutes of Health (NIH) publiaient un communiqué dans lequel on pouvait lire :

    « Le système complexe assurant la reproductibilité des recherches biomédicales n’est pas efficace et nécessite une restructuration. »

    Quand on connaît les enjeux en présence, et sa centralité dans la méthode scientifique, on pourrait trouver étrange que la réplication tienne davantage de l’exception que de la règle.

    #Biais_de_publication #Controverse_scientifique #Expérience_scientifique #Protocole_expérimental #Psychologie #Recherche_scientifique #Réplication #Science