[2005.05009v1] Digit analysis for Covid-19 reported data

/2005.05009v1

  • Des données chinoises trafiquées ?
    Marie-Claude Bourdon, Actualités UQAM, le 19 Mai 2020
    https://www.actualites.uqam.ca/2020/covid-19-donnees-chinoises-trafiquees

    Plus intéressant qu’il n’y parait :

    Prenez n’importe quelle série de nombres, par exemple le prix des produits dans votre épicerie, le nombre d’habitants des villes canadiennes, le nombre de votes obtenus par différents candidats dans différentes circonscriptions, et regardez les premiers chiffres de ces nombres (1 pour 18, 2 pour 26 000, 3 pour 3372, etc.). Il y a de fortes chances que le chiffre 1 soit le plus fréquent, suivi du 2, et ainsi de suite. Il s’agit d’un phénomène contre-intuitif puisque l’on s’attendrait à observer autant de 1 que de 9, par exemple. Ce phénomène, bien connu des statisticiens, peut être expliqué par la loi de Benford. Cette loi mathématique de probabilité permet d’examiner des séries de nombres pour déceler des anomalies et ainsi détecter de possibles fraudes et autres falsifications. Le professeur du Département de mathématiques Jean-François Cœurjolly l’a testée avec les données sur la pandémie de COVID-19 fournies par la Chine, le Canada, les États-Unis et la France.

    Dans un article publié en 1972, l’économiste Hal Varian a été le premier à proposer l’idée d’utiliser la loi de Benford pour détecter une fraude fiscale. Il a montré que dans les données falsifiées, les premiers chiffres significatifs 5 et 6 prédominaient : 40% pour le 5 (au lieu de 7.9%) et plus de 20% pour le 6 (au lieu de 6,7%).

    En 1993, un employé du Trésor de l’Arizona a été reconnu coupable d’une tentative de fraude de deux millions de dollars. Une série de chèques qu’il avait émis ne suivait pas la loi de Benford !

    « La loi de Benford a été utilisée dans de nombreuses autres circonstances, indique Jean-François Cœurjolly : pour détecter des fraudes électorales, pour illustrer des abus sur les prix lorsque la monnaie française est passée à l’euro en 2000, pour détecter des fraudes dans les publications scientifiques, etc. »

    les données chinoises ne s’écartent pas davantage du modèle que celles des trois autres pays considérés.

    #coronavirus #Chine #mathématiques #fraude #falsification #Loi_de_Benford #Simon_Newcomb #Frank_Benford

    • résumé du papier original
      le pdf est disponible

      [2005.05009] Digit analysis for Covid-19 reported data
      https://arxiv.org/abs/2005.05009v1

      The coronavirus which appeared in December 2019 in Wuhan has spread out worldwide and caused the death of more than 280,000 people (as of May, 11 2020). Since February 2020, doubts were raised about the numbers of confirmed cases and deaths reported by the Chinese government. In this paper, we examine data available from China at the city and provincial levels and we compare them with Canadian provincial data, US state data and French regional data. We consider cumulative and daily numbers of confirmed cases and deaths and examine these numbers through the lens of their first two digits and in particular we measure departures of these first two digits to the Newcomb-Benford distribution, often used to detect frauds. Our finding is that there is no evidence that cumulative and daily numbers of confirmed cases and deaths for all these countries have different first or second digit distributions. We also show that the Newcomb-Benford distribution cannot be rejected for these data.

      les données, le code R et le fichier markdown pour réaliser les graphiques sont disponibles sur le site de l’auteur (avec des données mises à jour au 18 mai…)
      https://sites.google.com/site/homepagejfc/publications