• De l’influence des #acacias sur les #accidents de la #route : une « #étude-à-la-con » nous explique les « #études-à-la-con » | Slate.fr
    http://www.slate.fr/life/80045/accidents-route-acacias-etudes
    http://www.slate.fr/sites/default/files/imagecache/blognews-picture/cycle.jpg

    Vous avez plus de chance de mourir dans un accident de la route quand il y a des acacias. Cette corrélation irréfutable nous est présentée par une étude conjointe de l’institut Max Planck en psycholinguistique de Nimègue et l’université d’Edimbourg.

    Ce genre de rapprochements entre des statistiques qui n’ont apparemment aucun rapport est devenu très populaire dernièrement, à tel point qu’on les taxe souvent d’« études à la con » : cette étude-là vise à nous expliquer pourquoi. En gros, tout est une affaire de chiffres –et de la façon dont on s’en sert.

    Ne serait-ce qu’ici même sur Slate.fr, vous avez pu entendre parler des rapports épatants entre le PIB et la taille du pénis, ou entre les noms de famille et la qualité du poste au travail. Ces travaux basés sur des croisements de statistiques, qui sont ici réunis sous le nom d’« études nomothétiques », sont devenus « rapides et faciles à réaliser » grâce à l’abondance récente de données sur lesquelles s’appuyer, en particulier dans le domaine de la linguistique.

    Depuis que nous disposons d’échantillons toujours plus grands, sur des aspects aussi divers que la consommation de chocolat ou la couleur des uniformes, tout peut être rapproché avec tout. Et c’est exactement ce que les chercheurs ont fait ici, pour souligner l’absurdité à laquelle peut conduire le procédé lorsqu’il est mal exploité :

    « La diversité linguistique est liée au climat. Le climat affecte la probabilité des siestes dans une culture. Les cultures où on fait la sieste ont tendance à avoir des langages à la morphologie moins complexe (...). La complexité morphologique est liée à la taille du groupe. »

    • Le souci, en fin de compte, viendrait surtout des médias qui ont un peu trop tendance à l’ignorer, et à donner aux études nomothétiques l’apparence... d’études à la con :…

      L’article d’origine est beaucoup plus intéressant que ce qu’en cite Slate , plus technique aussi.
      Linguistic Diversity and Traffic Accidents : Lessons from Statistical Studies of Cultural Traits http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0070902

      Il cite 3 causes « techniques »
      • le problème de Galton

      Named after Sir Francis Galton, following his observation that similarities between cultures are also the product of borrowing and common descent, Galton’s Problem highlights that researchers must control for diffusional and historical associations so as to not inflate the degrees of freedom in a sample.

      … ce qui est plus facile à dire qu’à faire !

      • la distance entre les utilisateurs (calculateurs de corrélation) et l(a collecte d)es données

      these observations are reliant on the choices of potentially one researcher, at a very specific point in time, and with only a finite amount of resources.

      • une difficulté spécifique aux #big_data ( gnark, gnark ! )

      these datasets tend to be incomplete, complex and based on inconsistent criteria. (…) There are likely to be unknowable confounds that increase the amount of hidden error in a particular sample. As such, the types of data found in nomothetic approaches are faced with an inverse sample size problem: the noise-to-signal ratio increases exponentially with an increase in the size of the dataset.

      En gros, plus les données sont de taille importante, plus il y a de chances qu’il y ait des facteurs de confusion (biais de collecte, éventuellement évoluant dans le temps…)

      Bref, plus la taille des données « exhaustives » est grande, plus grand est le risque de présence d’erreurs de type non-sampling errors .

    • Parce que ce n’est pas un échantillon aléatoire.

      En général, il y a une confusion entre échantillon (ce qui est observé) et échantillon aléatoire (idem, mais résultant de l’application d’une procédure stricte de constitution de l’échantillon).

      Dans le cas d’un échantillon non aléatoire, la statistique ne peut strictement rien dire sur la précision (ce sur quoi on se focalise habituellement) mais surtout sur l’absence de biais. Les médias ont pris la (très mauvaise) habitude de donner une estimation de la précision des sondages électoraux (méthode des quotas donc non aléatoire) en utilisant la formule pour un sondage aléatoire simple pour un échantillon de même taille.

      Ça fait vraiment plaisir de voir écrit, avec toute la rigueur et la pondération scientifique ( the noise-to-signal ratio increases exponentially with an increase in the size of the dataset ) la vieille règle qui veut que lorsque les données sont pourries, en augmenter le nombre ne règle pas le problème.

      Ce qu’on peut appeler la règle GIGO ( Garbage In-Garbage Out ).

    • merci pour cet éclairage.
      « GIGO » acronyme que j’ai souvent employé en conclusion dans mes analyses financières ...

      Quant aux sondages, l’opinion publique cet

      « équivalent de Dieu » dont Pierre Bourdieu a écrit qu’elle n’existait pas...

      S’intéresser aux sondages d’opinion, c’est donc s’intéresser à une forme dominante de production de l’opinion publique, ce qui est loin d’être un sujet mineur, alors que les experts autoproclamés de l’ opinion publique ne se contentent pas de la mesurer : ils déterminent les politiques publiques et contribuent à les faire accepter

      ( Alain Garrigou & Richard Brousse )
      « Manuel anti-sondages
      La démocratie n’est pas à vendre ! »
      http://www.observatoire-des-sondages.org