• Entendu hier au Rendez-vous du groupe Méthodes et Logiciels de la Société française de statistique (SFdS) sur les Données massives (suite de http://seenthis.net/messages/218421)
    http://www.sfds.asso.fr/323-Rendez_vous_SFdS_Methodes_et_Logiciels

    Dans un tout autre genre, la première intervention de Georges Hébrail de EdF R&D

    (transcription reprise de quelques notes perso)

    • Quand EdF a fait le recensement de ses #big_data, parmi les plus gros volumes, on avait la messagerie (600 To)

    • Dans l’avenir, avec les #smart_grids (et donc #Linky), on aura les courbes de consommation de 30 M de clients par pas de 10 minutes, soit environ 120 To/an

    • Dans les objectifs, descendre l’optimisation de la production du niveau national actuel (et donc UNE prévision) à des niveaux locaux. À terme, 1000 voire 10000 courbes de consommation prévues. Enjeu important, notamment pour le photovoltaïque en vue de l’auto-suffisance locale, ex. à un niveau individuel vais-je (je = système de pilotage) disposer d’assez d’énergie dans le temps pour lancer tel équipement.

    • L’organisation des traitements est très différentes selon les choix de stockage : centralisé (et donc super massifs) ou décentralisé (p. ex. sur des zones géographiques).

    • La R&D est très consciente des problèmes de confidentialité et étudie de près des solutions décentralisées, notamment, les algorithmes provenant du P2P tels les algorithmes de type majority voting . L’objectif est de mettre à jour les estimations et les modèles sans connaître les choix individuels. Elle met en place des solutions de clustering de consommation individuelle SANS diffusion des données individuelles (testé pour l’instant sur des simulations)