Unlearning descriptive statistics

/unlearning-descriptive-statistics

  • Unlearning descriptive statistics, by Stijn Debrouwere
    http://debrouwere.org/2017/02/01/unlearning-descriptive-statistics

    conseils pour faire des #statistiques parlantes :
    – d’abord, regarder la distribution, s’il y a plusieurs modes, les traiter séparément (plutôt que dire qu’un participant-moyen est à 50% un homme et à 50% une femme, dire qu’il y a environ autant d’hommes que de femmes)
    – plutôt que la moyenne, préférer la médiane, plus représentative de quelque chose qui existe vraiment (le fameux taux de naissance à 2,1 enfant par femme)
    – plutôt que l’écart-type, préférer la médiane de l’écart à la médiane (la moitié des gens font plus de 1m70, et la moitié des gens sont à plus de 5cm de cette valeur), l’exemple est plus compliqué car c’est justement un cas où on devrait distinguer deux modes (H et F) assez distincts
    – plutôt que « plus loin que 3 écarts-types, » on définira les outliers comme les éléments dont la disparition provoquent un changement majeur dans les éléments ci-dessus
    – plutôt que chercher des coefficients de corrélation, montrer graphiquement des distributions : histogrammes et nuages de points

    l’argument, si j’ai bien compris, est que les outils habituels sont plus utiles pour faire de l’inférence (des modèles prédictifs) que de la description

    je pense que ça intéressera entre autres @simplicissimus @reka @freakonometrics

    [EDIT : ma « traduction » à la va-vite introduit certainement des erreurs, je vous laisse vérifier sur l’original et me corriger le cas échéant]

    en lien avec le #machine_learning

    • Un exemple qui me vient en lisant ces conseils : les salaires, le salaire moyen et le salaire médian. Le second correspond sans doute mieux à ce que l’on croise autour de soit, alors que le « moyen » masque à la fois la sur-représentation des bas salaires, et les montants astronomiques des très hauts salaires.

      Selon une étude de l’Insee, le salaire net mensuel médian s’élevait à 1.730 euros en 2012. Quant au salaire net moyen, il atteignait 2.154 euros, en baisse de 0,4% en euros constants par rapport à 2011.

      http://www.latribune.fr/actualites/economie/france/20141216tribe5a5aab3c/le-salaire-net-median-mensuel-s-eleve-a-1-730-euros.html

    • C’est marrant, je ne sais pas si c’est unlearning, mais ça ressemble pas mal à la façon dont je les enseigne :-D

      (mais je ne fais que de la formation d’adultes, en formation initiale, c’est très compliqué de demander aux apprenants à « voir » quelque chose dans les données ; le dressage scolaire aboutit très vite à un questionnement « spontané » des élèves sous la forme « qu’est-ce que je dois calculer » (sous-entendu, pour avoir une bonne note à l’examen) et donc très peu réceptif à l’exploration visuelle et à l’interrogation méthodique)

      (ps : je n’ai pas lu (mais je lirai) j’ai un peu la tête dans le guidon)

    • je trouve ça quand même un peu simpliste, voire faux....
      déjà les stats sans formalisme, j’ai du mal
      cette histoire moyenne / médiane par exemple.... c’est mignon, mais si on a un mélange de deux lois, avec des proportions égales, genre une normale N(-2,1) et une normale N(2,1), la médiane et la moyenne sont identiques, et sans vrai sens... l’affirmation « The median, on the other hand, can be interpreted as a typical sort of value » ne veut pas dire grand chose....
      si on regarde ensuite du bernoulli {0,1}, la médiane ne veut rien dire du tout, alors que la moyenne a l’avantage de devenir une proba....
      pareil ensuite, présenter la dispersion avec l’écart-type c’est absurde, surtout sans le formalisme des moments ! il faudrait arrêter d’utiliser la variance si on ne formalise pas ! un écart interquantile a plus de sens je pense !
      bref, je pourrais continuer des heures...
      le dernier truc, au delà des maths, c’est que faire un article de stats (descriptif) sans un dessin !?! non, j’ai du mal !

    • je ne parle pas de la corrélation, impossible à définir avec des mots.... étrangement, avec des mots, j’ai réussi à définir un truc qui ressemble plus à du Kendall.... genre la proba, quand on tire un vecteur Gaussien corrélé, centré réduit, que le signe des deux composantes soit identique... dans le cas Gaussien, c’est proba est liée directement au tau de kendal (et donc à un arcsinus près à la corrélation)