Health Data Hub : centraliser les données de santé des Français est « inutile » et « dangereux »

Publié le : 29 octobre 2020

Qu’il soit géré par l’américain Microsoft ou par une infrastructure nationale, le Health Data Hub (HDH) soulève de « très graves problèmes »  et pose « des questions de sécurité majeure ». Dans une tribune publiée dans le Monde, deux épidémiologistes donnent l’alerte. Marcel Goldberg est professeur émérite d’épidémiologie et de santé publique à l’université de Paris et Marie Zins est médecin épidémiologiste, enseignante-chercheuse et professeur à l’université de Paris.

Le Health Data Hub a pour objectif de « réunir l’ensemble des données disponibles sur la santé des Français, pour développer l’intelligence artificielle (IA) en santé », une intention « louable », vue l’actuelle « dispersion » des données dans différents systèmes non coordonnés. Mais cette centralisation d’informations parmi les plus intimes des Français pose une vraie question de sécurité « car il suffit de croiser quelques données simples pour identifier une personne ». Et tout vol de données aurait des conséquences  « potentiellement très lourdes » (cf. Cyberattaque, chantage et rançons : des milliers de patients suivis en psychothérapie concernés). Avec une structure informatique unique, les données sont « plus exposées aux attaques » et « avec des impacts plus grands en cas de rupture de confidentialité ».

En plus d’être « dangereux », ce système centralisé est « inutile », selon les deux épidémiologistes. Tout d’abord parce que la qualité et la validité des données varie d’une source à l’autre. « Big data » ne signifie pas « good data » (cf. Recherche et données de santé à l’heure du Big Data). Or les algorithmes d’intelligence artificielle ont besoin de bases de données valides et de qualité. Elles doivent donc être étudiées minutieusement avant leur intégration au HDH. De plus, se pose la question de l’hétérogénéité de ces bases de données. « Il ne suffit pas de regrouper des données de droite et de gauche pour les ‘faire parler’. Encore faut-il que les données soient interopérables, c’est-à-dire homogènes sur le plan sémantique. (…) Et dans de nombreux cas, cette harmonisation s’avère impossible. C’est pourquoi les algorithmes d’IA sont le plus souvent développés sur une base de données unique ». Quand parfois plusieurs bases de données peuvent tout de même être utilisées ensemble, un travail d’homogénéisation doit être effectué au préalable. Pour Marcel Goldberg et Marie Zins, « imaginer qu’il sera possible de développer des algorithmes d’IA à partir des données extrêmement hétérogènes uniquement parce qu’elles sont stockées dans un système informatique centralisé est donc une aberration scientifique et technique ».

Les deux médecins estiment donc qu’il n’est « pas indispensable » de tout rassembler sur une plateforme unique, d’autant plus qu’ « il existe des méthodes d’analyse ‘distribuée’ où des données gérées dans des systèmes informatiques différents sont exploitées en commun ». Plutôt que d’ « empiler aveuglément des bases de données hétéroclites », les deux médecins estiment que d’autres objectifs seraient plus utiles pour le Health Data Hub, « comme par exemple une cartographie analytique des bases de données disponibles, leur mise en réseau, la promotion de règles harmonisées de partage de données ».

Source : Le Monde, Marcel Goldberg et Marie Zins (29/10/2020)

Partager cet article

Synthèse de presse

Chronique audio

Textes officiels

ressources

Fiches pratiques

Bibliographies

S'abonner aux lettres