Mouais…
Je suis toujours sceptique sur cette vision de la donnée brute. Elle me semble relever du fantasme de la « vraie donnée ».
Pour résumer par un jeu de mot (ok, assez à usage interne ;-) :
les données ne le sont pas !
Les données ne sont pas données, elles sont toujours construites. Desrosières insiste énormément (à juste titre) sur la construction des catégories, et, à mon sens, pas assez sur la production de la donnée. C’est à dire la mise en place d’un dispositif de « mesure » (ce qui n’est JAMAIS simple, y compris dans les sciences dures : faire une mesure, c’est respecter le protocole de mesure), de collecte et d’enregistrement.
De plus, la plupart du temps (et typiquement pour les données exhaustives) le recueil et le stockage d’information ne sont PAS faits pour faire des stats. Exemple archiclassique, la statistique des crimes et délits de l’ONDRP est d’abord une mesure de l’activité policière (et du comportement d’enregistrement cf. ►http://fr.wikipedia.org/wiki/Théorème_de_Demonque ).
Enfin, l’apprentissage automatique permet, là aussi, de fantasmer pas mal.
“On ne va plus faire d’hypothèses ni sur les données, ni sur les corrélations : c’est l’algorithme d’apprentissage qui va trouver lui-même les bons modèles prédictifs ! Il suffit désormais de donner aux données des buts à atteindre pour qu’elles apprennent elles-mêmes de la corrélation des données.”
Eueueuh, oui… Et il y a quoi dans ledit algorithme d’apprentissage qui permet aux données de s’auto-organiser ? Il est inspiré par le Saint-Esprit ?
Juste une dernière citation, extraite de WP :
►http://fr.wikipedia.org/wiki/Apprentissage_automatique
La qualité de l’apprentissage et de l’analyse dépendent du besoin en amont et a priori de la compétence de l’opérateur pour préparer l’analyse. Elle dépend aussi de la complexité du modèle (spécifique ou généraliste), de son adéquation et de son adaptation au sujet à traiter.
Mais, bon, c’est juste le point de vue d’un statisticien…