Despite limited statistical power
The backpack fallacy rears its ugly head once again | Statistical Modeling, Causal Inference, and Social Science
▻https://statmodeling.stat.columbia.edu/2023/08/22/the-backpack-fallacy-rears-its-ugly-head-once-again
Shravan points to this that he saw in Footnote 11 in some paper:
“However, the fact that we get significant differences in spite of the relatively small samples provides further support for our results.”
My response: Oh yes, this sort of thing happens all the time. Just google “Despite limited statistical power”.
This is a big problem, a major fallacy that even leading researchers fall for. Which is why Eric Loken and I wrote this article a few years ago, “Measurement error and the replication crisis,” subtitled, “The assumption that measurement error always reduces effect sizes is false.”
Anyway, we’ll just keep saying this over and over again. Maybe new generations of researchers will get the point.
billet qui rappelle (et me fait découvrir) ce très intéressant papier (un poil technique)
Measurement error and the replication crisis
▻http://www.stat.columbia.edu/~gelman/research/published/measurement.pdf
The assumption that measurement error always reduces effect sizes is false
En présence de données bruitées et si la puissance du test est faible (taille d’échantillon trop petite) le bruit peut conduire à surestimer l’effet détecté particulièrement en présence de #biais_de_sélection … (dit aussi #cherry_picking qui consiste à ne retenir (et publier) que les expériences dont la #p-value (#probabilité-associée (à l’hypothèse nulle) est bonne. Pratique plus que courante, systématique…
Article de 2017 qui éclaire une des causes de la crise de la réplication (les labos, y compris – fréquemment – celui qui a publié ne retrouvent pas les résultats publiés lorsqu’ils reproduisent l’expérience). On ne parle plus trop de cette crise aujourd’hui, bien que la question se posait (et se pose toujours…) dans la célèbre affaire du druide marseillais – où il ne s’agissait pas que d’erreurs de mesure et de variance un peu large…
(non, c’est vrai, je n’ai toujours pas digéré les vaticinations sur la significativité particulière des effets détectés dans des essais à (très) faible puissance statistique !)