grommeleur

Wrong’Em Boyo

  • Scientific method : Statistical errors
    http://www.nature.com/news/scientific-method-statistical-errors-1.14700

    The irony is that when UK statistician Ronald Fisher introduced the P value in the 1920s, he did not mean it to be a definitive test. He intended it simply as an informal way to judge whether evidence was significant in the old-fashioned sense: worthy of a second look.

    • Sur le fond, après avoir pesté de nombreuses années contre les utilisations délirantes de la #p-value , j’ai fini par comprendre pourquoi , finalement, il est quasi-impossible de s’en passer. À la lecture de ce papier, il me semble que mon approche actuelle doit être plus ou moins celle de Fisher. L’approche Neyman-Pearson permet, certes, de répondre à une question, mais à une question que l’on ne se pose pas vraiment dans la vraie vie

      L’intérêt de la p-value est de fournir un indicateur universel, étalonné (entre 0 et 1) pour répondre à une problématique très générale.
      • on dispose d’observations (obtenues n’importe comment…) et on souhaite les comparer à une situation de référence (typiquement, comparer une distribution à une loi de probabilités ou l’écart à l’indépendance d’un tableau de contigence — je prends les cas d’utilisation du χ ^2 vus habituellement dans tous les cours de base)
      • on sait facilement calculer une distance entre ces deux situations
      • problème, cette distance n’est pas « étalonnée » et son interprétation dépend de diverses choses : la taille de l’échantillon et des degrés de liberté par exemple
      • c’est là que sort du chapeau la p-value qui mouline la distance (la statistique de test) sous la loi qui va bien avec le type de comparaison (et qu’on sort de son manuel de proba)

      Miracle ! on a un indicateur unique qui permet de comparer divers traitements (comparaisons différentes, tailles différentes, nombre de paramètres différentes). Du coup, un moyen de faire le tri, vite fait, dans ce qu’il faut creuser ou pas.

      Les ennuis commencent quand on prend au sérieux ce calcul… Déjà, qui dit loi de probabilités postule un certain formalisme et quelques hypothèses dont, souvent, les plus élémentaires sont ouvertement fausses. Notamment, l’échantillon aléatoire : qu’est-ce qui empêche de calculer des p-value sur des tableaux de comptage issus de l’analyse du corpus lexical des 3 derniers locuteurs du bororo ? Rien ! Quelle signification a la question à laquelle on répond dans l’approche NP ? Aucune ! (C’est quoi l’hypothèse nulle ? c’est quoi l’hypothèse alternative ?)

      À mon avis, une partie de l’explication de l’hypertrophie de la p-value vient du rôle crucial qu’elle joue dans l’industrie pharmaceutique, où l’approche Neyman-Pearson permet de répondre formellement à la question ma molécule est-elle plus efficace que le placebo/la molécule existante ? qui est au centre de la phase III des essais.

      Au passage, l’importance de cette question et donc de la façon de réaliser les calculs qui permettent d’y répondre a justifié, il y a longtemps, la labellisation des logiciels statistiques par la FDA pour les essais cliniques, aboutissant à l’hyperdomination du logiciel états-unien bien connu.