[98] Evidence of Fraud in an Influential Field Experiment About Dishonesty

#footnote_13_6142

  • Really nice example of forensic statistics here: https://datacolada.org/98

    “A team of anonymous researchers downloaded [the data], and discovered that this field experiment suffers from a much bigger problem than a randomization failure: There is very strong evidence that the data were fabricated.”

    They even found evidence in the fonts used in the Excel sheet!
    (via https://statmodeling.stat.columbia.edu, which has a bit more context)

    • excellent, merci !!!

      c’est assez stupéfiant de voir à quel point le bidonnage de données est grossier… et facile à détecter. J’ose espérer qu’aucun statisticien ne s’est compromis dans cette étude
      • parce que, s’il en est responsable, 1. il est vraiment mauvais, 2. on peut s’interroger sur son éthique professionnelle
      • s’il n’en est pas responsable, ie les données ont été fabriquées en amont, il n’a pas su (ou même cherché à) les détecter

      on en revient toujours au problème de qualité des données, préalablement à toute étude sérieuse, des explorations élémentaires des données sont absolument indispensables, de simples distributions univariées suffisent très largement

      l’article pointé est de ce point de vue un exemple très éclairant et très pédagogique : il n’y a absolument rien de compliqué et les résultats sont probants au delà de tout doute.

      Encore merci.

    • Ils ont contacté les auteurs du papier, qui ont répondu chacun indépendemment. Seul Dan Ariely a eu accès aux données, qui venaient d’une entreprise d’assurance.

      Dans la réponse d’Ariely :

      . The work was conducted over ten years ago by an insurance company with whom I partnered on this study.The data were collected, entered, merged and anonymized by the company and then sent to me.This was the data file that was used for the analysis and then shared publicly.
      . I was not involved in the data collection, data entry,or merging data with information from the insurance database for privacy reasons.
      . I was the only author in contact with the insurance company. None of my co-authors were involved.
      (...)
      . I did not suspect any problems with the data.
      . I also did not test the data for irregularities, which after this painful lesson, I will start doing regularly.
      . I am committed to ensuring the integrity and validity of our research, and we are developing new policies to ensure that our data collection and analysis meets the highest standards

      http://datacolada.org/storage_strong/DanBlogComment_Aug_16_2021_final.pdf

      La note 14 explique ce qu’on peut lire dans les métadonnées du fichier Excel : https://datacolada.org/98#footnote_13_6142, qui semble pointer Ariely comme seul auteur du fichier. D’un autre côté, il a dû être d’accord pour rendre les données accessibles donc il ne se doutait peut-être de rien.