Pour revenir au passage que tu cites, il faut rappeler le cadre de ce qu’est un test statistique. Sachant que la façon classique de poser la question est suffisamment alambiquée pour qu’elle requière une grande concentration pour ne pas dire de bêtises et formuler les conclusions correctement.
À la base, il s’agit de comparer deux traitements, l’un supposé de référence, l’autre nouveau. Il faut décider si le nouveau est meilleur que la référence. Comme dans toute décision fondée sur une expérience aléatoire, il y a deux façons de se tromper :
• préférer le nouveau traitement alors qu’en fait il n’est pas meilleur (1ère espèce)
• garder l’ancien alors que le nouveau est meilleur (2ème espèce)
La procédure « classique » donne des rôles très différents aux deux risques associés à ces erreurs. Tout le système est bâti en fixant a priori une borne supérieure au risque de première espèce. Ce qui revient à dire qu’on ne veut pas lâcher trop facilement la méthode de référence.
Avec un échantillon de taille n, on peut alors construire le test et on obtient, a posteriori, une estimation du risque de deuxième espèce : ne pas accepter un nouveau traitement qui serait meilleur. Et c’est là, toujours dans l’approche classique, qu’on en arrive à « la base des statistiques » évoquée et qu’intervient la taille de l’amélioration apportée par le nouveau traitement avec ce qu’on appelle le calcul de la puissance du test.
À partir de cette taille de l’effet du nouveau traitement, on calcule a priori, la taille de l’échantillon qui permettra de détecter un tel écart.
Sans passer par le formalisme du test, c’est assez intuitif : plus la taille de l’échantillon est faible, moins la précision de l’estimation est grande. Pour détecter de faibles différences, il faut donc des échantillons de grande taille. On peut formuler ça sous la forme : moins y’a de gens quand c’est significatif, et plus c’est significatif qui n’est pas la plus claire ni la plus pédagogique, notamment parce que le mot significatif est utilisé à la fois dans son sens technique (première occurrence) et dans un sens large et flou (c’est significatif, où le cela qui est significatif n’est pas autrement précisé…)
Raoult réitère donc son attaque contre les essais cliniques classiques et particulièrement lorsqu’ils sont de grande taille (sous-entendu, on sodomiserait le diptère…)
Il oublie totalement (on peut pas être bon partout…) le contexte général. La démarche de recherche pour tester un traitement d’une pathologie nouvelle (en l’absence donc de traitement de référence) peut se décomposer en deux phases :
• la recherche de pistes de traitement : repérer les molécules actives contre la pathologie, avec un ratissage assez large et des méthodes de criblage (dans la littérature, on trouve plutôt screening)
• et, une fois retenue une branche (ou quelques branches) des tests selon le formalisme présenté plus haut, pour valider (confirmer) l’efficacité du traitement
Dans le contexte d’urgence du Sars-Cov-2, les deux phases sont télescopées et si l’effectif de l’échantillon est élevé, ce n’est pas parce qu’on cherche à détecter des pouièmes d’effet, mais parce qu’on teste plusieurs solutions thérapeutiques et qu’on souhaite pour chacune des branches disposer de résultats suffisamment solides.
C’est sûr que si l’on dispose d’une solution à l’efficacité « spectaculaire » solidement étayée un tel essai large ne sert à rien. Et nous voilà ramenés au point de départ : le professeur Raoult affirme qu’il a une solution à l’efficacité spectaculaire. Et on est priés de le croire.