• #Parquet, un format compact et décomposable
Les formats répondant à ces impératifs ont émergé ces dernières années avec l’avènement de solutions intégrées de traitement de la donnée massive, telles Hadoop. En particulier, le format Parquet (figure 2) permet de solliciter de manière très naturelle la donnée de façon parallélisée, c’est-à-dire en la scindant, en la distribuant très rapidement à plusieurs unités de traitement et en la traitant de cette manière en parallèle. Le nom de ce format résume à lui seul ses propriétés : schématiquement, la donnée va être stockée sous forme de « lames » denses, plus ou moins fortement compressées et mobilisables chacune de manière indépendante. Ce format permet de stocker la donnée grâce à différents algorithmes de compression, qui réduisent de manière très significative la taille des données sans dégrader la vitesse à laquelle cette donnée peut être mobilisée (Uber, 2022).
Parquet se base sur un principe algorithmique de stockage décrit et mis en œuvre par les équipes de Google dans leur processus de requêtage (Melnik et al, 2010). Les données sont représentées sous format tabulaire, et les « lames » vont regrouper plusieurs colonnes et un groupe d’observations. Selon l’usage que l’on veut faire des données, il s’agira donc de définir des regroupements de colonnes ainsi qu’une stratification des observations la plus efficiente possible. Chaque « lame » contient également un ensemble de métadonnées décrivant les colonnes présentes, ainsi que la partie d’observations contenues dans cette « lame ». Les métadonnées vont être lues de manière indépendante des données via les « connecteurs » des solutions logicielles, de manière à permettre une navigation optimisée dans la table. Une des spécificités de cette conception de format est de permettre également de décomposer les données en plusieurs fichiers, de manière à rendre plus concrète et visible à l’utilisateur la notion de « lame » ; les connecteurs vont alors récupérer l’information associée aux métadonnées pour l’ensemble des fichiers Parquet contenus dans un même dossier, en considérant ces fichiers comme décrivant une seule et unique table.
Le format Parquet est donc particulièrement adapté pour gérer de la donnée volumineuse et distante15, sans la dupliquer (Mauvière, 2022). En s’imposant comme un standard open source, il donne la possibilité à l’utilisateur de travailler avec différents outils logiciels dont la complémentarité est précieuse. Il ne saurait néanmoins être vu comme une réponse unique à l’ensemble des problématiques du monde moderne de la donnée.