person:hubert guillaud mouais

  • De la statistique aux big data : ce qui change dans notre compréhension du monde

    http://www.internetactu.net/2012/12/19/de-la-statistique-aux-big-data-ce-qui-change-dans-notre-comprehension-

    De la statistique aux big data : ce qui change dans notre compréhension du monde

    Par Hubert Guillaud le 19/12/12

    Lors de la dernière édition des Entretiens du Nouveau Monde industriel qui avaient lieu les 17 et 18 décembre 2012 au Centre Pompidou, le sociologue Dominique Cardon a proposé une intéressante matrice pour comprendre à la fois les limites de la réutilisation des données ouvertes et celle des “Big Data“.

    Nous sommes désormais confrontés à un incroyable déluge de données produit par le numérique, reconnaît Dominique Cardon. C’est ce qu’on appelle le Big Data. Les données semblent innombrables, proliférantes… Et vont demain nous en apprendre toujours plus sur nous-mêmes…

    Mais sont-elles nécessaires ? Répondent-elles à des besoins ? Sont-elles critiques ou plutôt nous permettent-elles d’acquérir une perspective critique ?…

    #statistiques #data #bigdata

    • Mouais…

      Je suis toujours sceptique sur cette vision de la donnée brute. Elle me semble relever du fantasme de la « vraie donnée ».

      Pour résumer par un jeu de mot (ok, assez à usage interne ;-) :
      les données ne le sont pas !
      Les données ne sont pas données, elles sont toujours construites. Desrosières insiste énormément (à juste titre) sur la construction des catégories, et, à mon sens, pas assez sur la production de la donnée. C’est à dire la mise en place d’un dispositif de « mesure » (ce qui n’est JAMAIS simple, y compris dans les sciences dures : faire une mesure, c’est respecter le protocole de mesure), de collecte et d’enregistrement.

      De plus, la plupart du temps (et typiquement pour les données exhaustives) le recueil et le stockage d’information ne sont PAS faits pour faire des stats. Exemple archiclassique, la statistique des crimes et délits de l’ONDRP est d’abord une mesure de l’activité policière (et du comportement d’enregistrement cf. http://fr.wikipedia.org/wiki/Théorème_de_Demonque ).

      Enfin, l’apprentissage automatique permet, là aussi, de fantasmer pas mal.

      “On ne va plus faire d’hypothèses ni sur les données, ni sur les corrélations : c’est l’algorithme d’apprentissage qui va trouver lui-même les bons modèles prédictifs ! Il suffit désormais de donner aux données des buts à atteindre pour qu’elles apprennent elles-mêmes de la corrélation des données.”

      Eueueuh, oui… Et il y a quoi dans ledit algorithme d’apprentissage qui permet aux données de s’auto-organiser ? Il est inspiré par le Saint-Esprit ?

      Juste une dernière citation, extraite de WP :
      http://fr.wikipedia.org/wiki/Apprentissage_automatique

      La qualité de l’apprentissage et de l’analyse dépendent du besoin en amont et a priori de la compétence de l’opérateur pour préparer l’analyse. Elle dépend aussi de la complexité du modèle (spécifique ou généraliste), de son adéquation et de son adaptation au sujet à traiter.

      Mais, bon, c’est juste le point de vue d’un statisticien…

    • Et quel point de vue ! tu me fais penser à Freakonometric (Arthur Charpentier). Je ne connaissais pas l’expression « les données ne le sont pas ! », j’aime beaucoup. Je me suis beaucoup imprégné des bouquins de Desrosières, et je soutiens, pour les données d’ailleurs autant que pour la carte elle même, ce point de vue. Nous savons bien à quel point sont abstraites les données que nous utilisons le plus souvent. Le drame est qu’on bâtit des discours assurés sur la base de ce que « disent » ces « données » que l’on considère « vraies »

    • Je ne connaissais pas Arthur Charpentier Freakonometrics, l’article que tu mets en lien un peu plus tard http://seenthis.net/messages/105743 est en effet tout à fait caractéristique de ce qui se passe quand on se coltine à des données brutes. Ici, données administratives, exhaustives, avec changement de convention (c’est toujours comme ça…) Et il évoque, en fin d’article, d’autres sources (tout aussi administrative) et la difficulté de se les procurer (puisqu’appartenant à des sociétés privées et directement liées à leur cœur de métier). On peut ajouter que, s’il les récupère, il devra se coltiner le lien entre les deux sources, puisqu’à tous les coups les unités statistiques seront différentes :
      • les gendarmes comptent des accidents,
      • les compagnies d’assurance comptent des dossiers indemnisés
      Il n’y a aucune raison pour que les deux se recouvrent à 100%. Et j’imagine qu’on aura, chez les assureurs aussi, une rupture de série en 2003, avec la création du FGAO (Fonds de garantie pour les accidents dont les auteurs sont non identifiés ou non assurés).

      Juste un bémol, à son article. Je l’aurais terminé par :

      Bienvenue dans le monde des données !

      #le_vrai_chiffre