Quels formats pour quelles données ?

/7635827

  • Quels formats pour quelles données ? − Courrier des statistiques N9 - 2023 | Insee
    https://www.insee.fr/fr/information/7635827?sommaire=7635842

    La donnée, pour être intelligible par ses utilisateurs et accomplir sa fonction de transport de l’information, doit être structurée. Une telle structure se formalise au travers d’un modèle de données, qui conditionne le choix du format. Les formats de données sont variés et répondent à des problématiques spécifiques, différentes selon le contexte de l’utilisation de la donnée par le métier. Dans l’idéal, les standards sous-jacents aux modèles de données et les formats associés sont partagés par le plus grand nombre d’utilisateurs. S’agissant de la donnée statistique, ces problématiques sont localisées dans les objets pour lesquels les données sont susceptibles de véhiculer de l’information, mais également dans la documentation de la donnée – la métadonnée – ou encore dans la volonté d’associer à la donnée des solutions logicielles spécifiques particulièrement adaptées à son traitement.

    Sur ce dernier point, l’émergence ces dernières décennies de solutions open-source a permis de concilier les notions de sécurisation de l’import de la donnée, d’efficience de son traitement, de reproductibilité, etc. En particulier, des formats comme Parquet s’intègrent à des solutions logicielles accessibles à tous et adoptées par une communauté de plus en plus large, convaincue de ses avantages. Néanmoins, il n’existe pas de réponse définitive et unique pour le choix d’un format : des choix sont faits après une analyse précise des besoins relatifs à chaque étape du cycle de vie de la donnée. En cela, le choix d’un format est l’expression concrète d’un standard dicté par des impératifs propres à chacune de ces étapes.

    • • #Parquet, un format compact et décomposable
      Les formats répondant à ces impératifs ont émergé ces dernières années avec l’avènement de solutions intégrées de traitement de la donnée massive, telles Hadoop. En particulier, le format Parquet (figure 2) permet de solliciter de manière très naturelle la donnée de façon parallélisée, c’est-à-dire en la scindant, en la distribuant très rapidement à plusieurs unités de traitement et en la traitant de cette manière en parallèle. Le nom de ce format résume à lui seul ses propriétés : schématiquement, la donnée va être stockée sous forme de « lames » denses, plus ou moins fortement compressées et mobilisables chacune de manière indépendante. Ce format permet de stocker la donnée grâce à différents algorithmes de compression, qui réduisent de manière très significative la taille des données sans dégrader la vitesse à laquelle cette donnée peut être mobilisée (Uber, 2022).

      Parquet se base sur un principe algorithmique de stockage décrit et mis en œuvre par les équipes de Google dans leur processus de requêtage (Melnik et al, 2010). Les données sont représentées sous format tabulaire, et les « lames » vont regrouper plusieurs colonnes et un groupe d’observations. Selon l’usage que l’on veut faire des données, il s’agira donc de définir des regroupements de colonnes ainsi qu’une stratification des observations la plus efficiente possible. Chaque « lame » contient également un ensemble de métadonnées décrivant les colonnes présentes, ainsi que la partie d’observations contenues dans cette « lame ». Les métadonnées vont être lues de manière indépendante des données via les « connecteurs » des solutions logicielles, de manière à permettre une navigation optimisée dans la table. Une des spécificités de cette conception de format est de permettre également de décomposer les données en plusieurs fichiers, de manière à rendre plus concrète et visible à l’utilisateur la notion de « lame » ; les connecteurs vont alors récupérer l’information associée aux métadonnées pour l’ensemble des fichiers Parquet contenus dans un même dossier, en considérant ces fichiers comme décrivant une seule et unique table.

      Le format Parquet est donc particulièrement adapté pour gérer de la donnée volumineuse et distante15, sans la dupliquer (Mauvière, 2022). En s’imposant comme un standard open source, il donne la possibilité à l’utilisateur de travailler avec différents outils logiciels dont la complémentarité est précieuse. Il ne saurait néanmoins être vu comme une réponse unique à l’ensemble des problématiques du monde moderne de la donnée.