• Données de santé : « La plate-forme “Health Data Hub” pose des questions de sécurité majeures », Marcel Goldberg, Marie Zins, épidémiologistes
    https://www.lemonde.fr/idees/article/2020/10/29/donnees-de-sante-la-plate-forme-health-data-hub-pose-des-questions-de-securi

    Le gouvernement a lancé un très ambitieux projet de « Health Data Hub » (HDH) visant à réunir l’ensemble des données disponibles sur la santé des Français, pour développer l’intelligence artificielle (IA) en santé. En effet, la situation actuelle est largement insatisfaisante en raison de la dispersion en de multiples systèmes d’information gérés sans coordination par de nombreux acteurs : hôpitaux, Sécurité sociale, organismes de recherche, universités, registres et enquêtes épidémiologiques, cohortes… On ne peut que souscrire aux objectifs de partage de données et de développement de l’IA en santé et se féliciter de la volonté politique de fournir des moyens conséquents.
    Mais si l’intention est louable, réunir toutes les données dans une infrastructure informatique unique est extrêmement dangereux et largement inutile. Le fait de confier sa gestion à Microsoft a suscité de nombreux débats, mais on n’a pratiquement pas évoqué les très graves problèmes que pose le dispositif prévu, même s’il était géré sur une infrastructure nationale.

    Exposition aux attaques

    En effet, le HDH entend centraliser toute donnée collectée dans le cadre d’un acte remboursé par l’Assurance-maladie dans les hôpitaux, en médecine de ville, médecine du travail, pharmacies, services de protection maternelle et infantile, dépistage, enquêtes de santé… La centralisation des données concernant les aspects les plus intimes de la vie des 67 millions d’assurés sociaux chez un hébergeur unique pose des questions majeures de sécurité, car il suffit de croiser quelques données simples pour identifier une personne, avec des conséquences potentiellement très lourdes.

    La centralisation des données dans une seule infrastructure informatique peut permettre des mesures de sécurité accrues, mais les rend plus exposées aux attaques venant de l’extérieur comme de l’intérieur, avec des impacts plus grands en cas de rupture de confidentialité. Faire courir un tel danger aux personnes ne peut se justifier que si cela est indispensable. Or ce n’est pas le cas : non seulement un système centralisé est dangereux, mais il est largement inutile pour deux raisons essentielles.

    La première tient à la qualité des différentes bases de données concernées. Construites dans des buts, des circonstances et avec des méthodes qui, pour la plupart, n’ont rien à voir entre elles, leur qualité et leur validité sont extrêmement variables : « big data » n’est pas synonyme de « good data ». Or les algorithmes d’intelligence artificielle ont besoin de données valides. Avant d’utiliser une base de données, un examen minutieux de ses caractéristiques et de sa qualité, impliquant ceux qui l’ont construite, est indispensable, sans quoi son intégration dans le HDH est inutile.

    Aberration scientifique et technique

    La seconde raison est l’hétérogénéité de ces bases de données. Il ne suffit pas de regrouper des données de droite et de gauche pour les « faire parler ». Encore faut-il que les données soient interopérables, c’est-à-dire homogènes sur le plan sémantique. Par exemple, si on s’intéresse à l’insuffisance cardiaque, on peut trouver des données dans diverses sources : dossier de service de cardiologie, diagnostic de généraliste ou de cardiologue en ville, déclaration d’un sujet dans une enquête, réseaux sociaux… Mais, selon la source, ce terme n’a pas la même signification, ni la même validité.

    Il faut connaître le contexte et les méthodes du recueil des données, la population dont elles sont issues, etc., le cas échéant le type d’appareil utilisé car on rencontre, par exemple, des électrocardiogrammes ou des images IRM provenant d’appareils différents. Et dans de nombreux cas, cette harmonisation s’avère impossible. C’est pourquoi les algorithmes d’IA sont le plus souvent développés sur une base de données unique.

    Il arrive cependant que plusieurs bases de données puissent être rassemblées. Il faut alors les harmoniser. Mais ceci n’a de sens que pour des objectifs spécifiques de recherche et ne peut donc être réalisé qu’au cas par cas ; et implique un travail de comparaison et de définition des données, qui ne peut être réalisé que par les responsables des données concernées, qui disposent de l’expertise et de la connaissance approfondie des données, des conditions de leur recueil, des modalités de validation… Imaginer qu’il sera possible de développer des algorithmes d’IA à partir des données extrêmement hétérogènes uniquement parce qu’elles sont stockées dans un système informatique centralisé est donc une aberration scientifique et technique.

    Et même si toutes ces difficultés sont résolues et qu’on dispose de plusieurs bases de données véritablement interopérables, il n’est pas indispensable de les réunir dans la même infrastructure informatique. Il existe des méthodes d’analyse « distribuée » où des données gérées dans des systèmes informatiques différents sont exploitées en commun ; ces méthodes sont largement utilisées dans les cas où, pour des raisons de sécurité ou des raisons légales, les données ne doivent pas être transférées hors de leur propre environnement.

    Développer le HDH en réunissant les données de 67 millions de Français dans une infrastructure informatique unique est donc une erreur fondamentale qui fait inutilement courir de graves dangers. Si les objectifs de partage de données et de développement de l’IA sont pleinement justifiés, plutôt que d’empiler aveuglément des bases de données hétéroclites, le HDH devrait se concentrer sur des activités réellement utiles, comme par exemple une cartographie analytique des bases de données disponibles, leur mise en réseau, la promotion de règles harmonisées de partage de données, etc.

    En gardant à l’esprit que les véritables difficultés se situent à la source même des données de santé, comme la crise sanitaire du Covid-19 l’a cruellement mis en évidence : absence de données provenant des EHPAD, insuffisance du nombre de spécialistes du codage des causes de décès, pour ne citer que les manques les plus voyants.

    #données_de_santé #IA #santé