Intervention de Stéphanie Combes

Réunion du jeudi 18 février 2021 à 9h30
Mission d'information sur le thème « bâtir et promouvoir une souveraineté numérique nationale et européenne »

Stéphanie Combes, directrice du groupement d'intérêt public Plateforme nationale d'accès aux données de santé (Health Data Hub) :

Le projet du Health Data Hub a trouvé ses racines dans les travaux sur l'intelligence artificielle rendus par M. Cédric Villani en 2018. Il y faisait la promotion des plateformes de partage de données dans différents secteurs – la santé constituant un secteur prioritaire à ce sujet. Une mission de préfiguration et d'expertise a alors été commandée par la ministre de la santé de l'époque, Mme Agnès Buzyn. J'étais rapporteur de cette mission de préfiguration, dont le rapport a été rendu à la fin de l'année 2018. L'année 2019 a été consacrée à la préfiguration de cette structure, par des travaux législatifs et d'infrastructures technologiques. La structure a été créée à la fin de l'année 2019 et fonctionne maintenant depuis un peu plus d'un an.

Ce projet s'inscrit dans une démarche large portée par le ministère de la santé. La feuille de route du numérique en santé est particulièrement ambitieuse. Le Health Data Hub est l'une des trois plateformes numériques qui doivent être bien articulées : une plateforme pour les citoyens, proposant des applications pour les aider dans leurs soins ; une plateforme pour les professionnels de santé, prévoyant des outils pour les accompagner dans leurs activités ; et, enfin, le Health Data Hub qui s'apparente à une plateforme de recherche et développement.

La structure Health Data Hub regroupe 56 parties prenantes, réparties en neuf collèges – ce hub doit représenter l'ensemble de l'écosystème des données de santé, qui est extrêmement vaste. L'État, bien sûr, y est présent : onze directions de l'État sont parties prenantes ; parmi elles, une direction du ministère de la santé et une direction du ministère de la recherche siègent au conseil d'administration. La Caisse nationale de l'assurance maladie (CNAM) est également un partenaire clé du projet. Les autres collèges sont formés par les organismes d'assurance maladie complémentaire ; les établissements de recherche et d'enseignement ; les établissements de santé ; les représentants des professionnels de santé et des usagers ; les agences, opérateurs et autorités publiques indépendantes ; et, enfin, les industriels. L'assemblée générale réunit l'ensemble de ces parties prenantes ; le conseil d'administration, quant à lui, réunit un représentant de chacun des collèges, à l'exception de l'État qui en a deux. Le financement du Health Data Hub est majoritairement public : la structure bénéficie de vingt millions d'euros par an, dont une moitié provient de l'objectif national de dépenses d'assurance maladie (ONDAM) et l'autre moitié du fonds de transformation de l'action publique, un outil de financement de l'innovation.

Le Health Data Hub doit fournir un accès simplifié aux données de santé en France pour améliorer la qualité des soins et l'accompagnement des patients. La plateforme s'adresse aux acteurs qui animent des projets de recherche et poursuivent une finalité d'intérêt public ; ceux-ci doivent soumettre un dossier pour accéder aux données de santé. La mission du Health Data Hub s'articule autour de quatre missions principales. Tout d'abord, la plateforme est un guichet unique. L'institut national des données de santé (INDS), créé par la loi de 2016, jouait déjà ce rôle : un porteur de projet devait monter un dossier de demande pour accéder aux données de santé ; celui-ci était soumis à la Commission nationale de l'informatique et des libertés (CNIL), seule autorité compétente pour autoriser un traitement de données ; enfin, le porteur de projet déposait son dossier à l'INDS.

Nous avons cherché à élargir les missions de ce guichet. En effet, une fois que la CNIL avait autorisé le traitement de données, le porteur de projet pouvait rencontrer des difficultés d'accès aux données car celles-ci pouvaient être éparpillées ou bien impossibles à traiter en raison de problèmes technologiques. Par le Health Data Hub, nous souhaitons apporter un service jusqu'à la réalisation de l'étude. La plateforme sécurisée donne accès à un espace projet, où nous versons les données autorisées dans le cadre des projets et les utilisateurs pourront les traiter avec des logiciels de programmation à l'état de l'art. L'utilisateur n'a accès ni aux données des autres utilisateurs, ni à davantage de données que nécessaire pour son projet. De la même manière, il ne peut pas sortir les données de l'espace projet et toutes ses activités sont tracées. Mais cela n'est pas une obligation : le Health Data Hub n'est pas une plateforme unique. Si certains acteurs disposent déjà de plateformes technologiques au bon niveau de sécurité, alors il n'est pas besoin de passer par le Health Data Hub. Cependant, la mission de préfiguration a montré que beaucoup d'acteurs ne disposent pas de telles plateformes et il est très coûteux de mettre sur pied une infrastructure dotée des bons niveaux de sécurité et des fonctionnalités adéquates.

La plateforme technologique met à la disposition de ses utilisateurs un catalogue de données. La loi a élargi le système national des données de santé (SNDS) à l'ensemble des données associées à un remboursement de l'assurance maladie. Il est évident que toutes ces données ne seront pas versées à la plateforme technologique du hub – cela n'est ni viable ni souhaitable techniquement, financièrement et scientifiquement. Nous nous posons plutôt la question suivante : quelles données du patrimoine de données de santé français sont intéressantes pour la communauté scientifique et de l'innovation ? Un comité stratégique, piloté par l'État, élaborera une priorisation de ces données. Suite à cette priorisation, une liste des bases du catalogue sera établie : elle sera prise par arrêté après avis de la CNIL et sera mise à jour régulièrement.

La dernière mission du Health Data Hub est une mission d'animation. Beaucoup d'initiatives existent sur le territoire et il est important de les agréger afin de générer un impact à l'échelle européenne et internationale. Il faut, pour y arriver, connecter entre elles les initiatives existant dans les différents établissements de santé – cela permettra d'atteindre une masse critique. Le Health Data Hub poursuit cet objectif.

Le SNDS, créé en 2016, est la base des feuilles de soin pseudonymisées pour servir à des fins de recherche. Il constitue une base unique en son genre au niveau international, car la centralisation du système de santé français permet d'obtenir la consommation de soins de l'ensemble de la population. Cela est extrêmement intéressant pour la recherche. Néanmoins, il s'agit d'une base médico-administrative : elle ne comprend, par exemple, ni résultats d'analyses, ni scanners. Il est donc intéressant d'associer cette base avec d'autres.

C'est ce qu'a fait la loi sur l'organisation et la transformation du système de santé en 2019 : cette loi a créé le hub et a élargi le SNDS. Le SNDS constitue un système de base, qui regroupe des données de registre, des cohortes de recherche, des entrepôts de données hospitalières et la base de l'Assurance maladie. Le catalogue du hub présentera une sous-catégorie, constituée par les données du SNDS, dont les bases seront chaînées avec celles de l'Assurance maladie pour élargir la capacité à les réutiliser. Cela est fait en partenariat avec les gestionnaires de bases de données : une convention est signée qui fixe les modalités et les règles de partage. Ainsi, nous discutons aujourd'hui avec un grand nombre d'acteurs pour concevoir ce catalogue – il ne s'agit pas du tout d'un mécanisme d'aspiration des données, comme cela a pu être dit.

Une première version du catalogue a pris forme dans l'entrepôt COVID, autorisé par l'arrêté du 21 avril 2020. Il rend disponible la base du SNDS fast-track avec les données de l'Assurance maladie issues du programme de médicalisation des systèmes d'information (PMSI) et les données de Santé publique France. Les données du système de vaccins y seront également bientôt disponibles.

Que nous manque-t-il pour mettre en œuvre ce catalogue, qui constitue l'ambition clé du Health Data Hub ? Un décret est toujours manquant – sa publication est attendue au mois de février ou de mars 2021. Le comité stratégique doit également se réunir, afin de définir la liste des bases du catalogue, qui sera prise par arrêté après avis de la CNIL. Il est essentiel de pouvoir poser tous ces jalons avant le milieu de l'année 2021. Le Health Data Hub a été lancé en 2019 ; nous ne pouvons pas nous permettre d'accumuler du retard dans la mise en place du catalogue.

L'accès aux données du catalogue ne se fait pas du tout en open data – les règles habituelles s'y appliquent. En revanche, le caractère centralisé des données facilite les temps d'accès, l'accès à des logiciels métier adaptés – notamment en cas d'usage pour l'intelligence artificielle – et les chaînages. Ainsi, le Health Data Hub ne va pas remplacer les autres initiatives, notamment les plateformes locales déjà existantes. Par exemple, l'entrepôt de l'Assistance publique-Hôpitaux de Paris (AP-HP) n'a pas besoin du Health Data Hub pour conduire la plupart de ses projets. Mais le Health Data Hub pourrait l'intéresser pour certains d'entre eux – ainsi, nous travaillons actuellement avec l'AP-HP sur une dizaine de projets, ce qui prouve bien nos intérêts communs et complémentaires.

Le Health Data Hub permettra en premier lieu le croisement des sources. Un projet s'appuyant sur les données d'un établissement de santé est intéressant, mais il lui manque les données de santé de ville et peut-être les données des autres établissements de santé. Le chaînage entre les données de l'Assurance maladie et celles de l'établissement de santé permettra d'adopter une approche en parcours de soins et de conduire des projets qu'il n'est pas possible de concevoir autrement. Aujourd'hui, un chaînage, c'est-à-dire un croisement de sources de données, peut durer trois à quatre ans en France. L'ambition du Health Data Hub est de réduire ce délai à six ou neuf mois.

L'autre intérêt du hub réside dans ses capacités élastiques de calcul et de stockage – c'est la raison pour laquelle nous avons choisi une infrastructure cloud. À titre d'exemple, une clinicienne de l'AP-HP développe un projet d'aide au dépistage du cancer de la prostate qui mobilise le traitement de 10 000 imageries par résonance magnétique (IRM) par l'utilisation du deep learning. Elle travaille actuellement avec plusieurs établissements de santé mais aucun d'entre eux ne peut réunir au même endroit les 10 000 IRM et ne dispose des capacités de calcul et de stockage suffisantes pour appliquer les algorithmes – c'est pourquoi elle a eu recours aux services du hub.

Nous avons eu l'occasion de poser quelques jalons en 2020. Nous avons tout d'abord mis en production une plateforme pour des projets liés au COVID et avons procédé à sa mise à jour en fin d'année. Nous avons également conduit un second appel à projets au terme duquel nous avons sélectionné dix nouveaux projets sur le thème de l'intelligence artificielle et de la santé. Nous accompagnons aujourd'hui quarante projets : parmi eux, trente sont des projets pilotes et dix sont des projets liés au COVID – huit d'entre eux ont déjà reçu une autorisation de la CNIL et les deux derniers sont en attente de la recevoir. Nous animons des discussions avec les partenaires du catalogue ainsi que des actions de fédération de l'écosystème : un colloque, un data challenge, une winter school à laquelle 400 personnes se sont inscrites. Le hub rassemble aujourd'hui une cinquantaine de collaborateurs et nous formons l'ambition d'être soixante-dix en 2021. Enfin, nous sommes impliqués dans les travaux européens – j'y reviendrai.

Nous avons cinq priorités en 2021 :

– continuer la mise en place de la structure créée il y a un an ;

– industrialiser l'accompagnement des projets de bout en bout ;

– mettre en place des partenariats stratégiques et les développer, par exemple avec la CNAM, l'Institut national de la santé et de la recherche médicale (Inserm) et les établissements de santé ;

– associer le grand public au dispositif, en particulier compte tenu de la sensibilité des données ;

– enfin, développer l'infrastructure technologique.

Comment accéder aux données présentes dans le hub ? La réglementation française est très précise à ce sujet. Les porteurs de projets doivent constituer un dossier de demande d'autorisation d'accès aux données auprès de la CNIL. En la matière, le hub fait office de simple guichet administratif : le porteur de projet dépose son dossier au hub, qui le transmet à un comité éthique et scientifique national, qui vérifiera la solidité du projet tant du point de vue de la finalité poursuivie que de la méthodologie. Ce comité sera composé d'experts de très haut niveau, reliés à des experts extérieurs spécialistes de sujets très pointus. Si le comité accorde un avis favorable au dossier, le hub le transmettra à la CNIL. La CNIL est la seule autorité en mesure de délivrer ou non une autorisation de traitement de données. Le porteur de projet pourra ensuite s'adresser au hub en sa qualité de gestionnaire d'infrastructure afin qu'il mette à disposition les données, mais cela n'est pas obligatoire. Le porteur de projet doit être transparent sur l'objet de son étude, qui doit être décrite sur le site Internet du Health Data Hub et figurer au répertoire public disponible en ligne, ainsi que partager une partie des résultats de sa recherche.

Vous m'avez interrogée sur les articulations du Health Data Hub avec les initiatives locales, et en particulier avec le Ouest Data Hub. Nous conduisons un projet pilote avec le groupement de coopération sanitaire des hôpitaux universitaires du Grand Ouest (HUGO) qui porte le projet du Ouest Data Hub. Le Pr Marc Cuggia, impliqué dans ce projet, a participé à la mission de préfiguration du Health Data Hub. La convergence entre les initiatives a donc été imaginée dès le départ. Il n'est absolument pas dans l'intérêt du Health Data Hub de remplacer les initiatives locales : au contraire, il faut bien plus d'entrepôts de données hospitalières qu'il n'en existe aujourd'hui. Nous souhaitons permettre le passage à l'échelle par le développement de projets d'envergure nationale et le croisement des données.

Le projet que nous conduisons avec HUGO s'appelle Hugo-Share. Il vise à analyser les trajectoires médicamenteuses de 420 000 patients afin de comprendre et d'éviter les accidents iatrogéniques en ville et à l'hôpital et afin d'améliorer les parcours de soins des patients les plus fragiles, notamment les personnes âgées. Le Health Data Hub cofinance le projet et accueille la base chaînée au sein de la plateforme. La base clinique, elle, est fournie par le Ouest Data Hub et ses six établissements partenaires. Nous menons d'autres partenariats de ce type avec d'autres acteurs : par exemple, avec la Fédération nationale des centres de lutte contre le cancer (Unicancer) afin de mutualiser les données et de construire une base oncologique d'envergure, dans le respect de la réglementation et du droit des patients.

Vous m'avez également interrogée sur les raisons d'être et le rôle de la direction citoyenne. Son rôle s'articule autour de l'obligation légale du hub : informer les patients, promouvoir et faciliter leurs droits. La direction citoyenne ne remplace pas la direction juridique. Nous identifions un enjeu à « embarquer » avec nous la société civile : il ne s'agit pas seulement d'informer les citoyens, mais de faire d'eux des partenaires du dispositif.

Cette direction anime quatre actions. La première consiste à étudier, consulter et concerter avec la société civile : nous constituons des groupes de travail afin de comprendre les attentes de la société civile et de recueillir sa perception du partage des données de santé. Nous sommes très impliqués dans l'action conjointe de la Commission européenne afin de mettre en place un espace commun de données de santé : le hub est l'autorité française compétente pour coordonner le travail des acteurs français sur le sujet. Ainsi, nous sommes chargés d'un lot de travaux relatif à l'infrastructure (cela concerne GAIA-X) ainsi que d'un lot de travaux sur l'engagement. Dans ce dernier lot de travaux, nous mettons en place une e-consultation pour nous adresser très largement à la société civile.

Nous cherchons également à mettre en place des partenariats concrets : par exemple, les associations de patients peuvent être autorisées à traiter des données. Nous avons ainsi conduit un premier partenariat avec France Asso Santé autour de l'étude intitulée « Vivre COVID », afin d'étudier comment les patients chroniques vivaient le premier confinement. Dans ce cas de figure, le hub apporte son appui à l'association de patients qui réalise l'étude et apporte ses données. Nous étudions actuellement comment le hub pourrait faire des requêtes au nom des citoyens ou des associations, quand ceux-ci ne sont pas en mesure de le faire eux-mêmes.

Il est également essentiel d'informer et de vulgariser, car la donnée de santé est particulièrement abstraite et complexe. Nous mettons en place des baromètres pour évaluer la connaissance ainsi que des outils de communication les plus vulgarisés possibles. Nous avons déjà produit deux vidéos et rédigé une note d'engagement avec un groupe de travail de patients. Nous souhaitons construire un contenu facile à lire et à comprendre sur le site Internet, afin de le rendre accessible au plus grand nombre de personnes. Cela pose évidemment de nombreuses questions sur l'exercice des droits, et ouvre également un chantier technologique sur la mise en œuvre des droits.

La direction citoyenne recouvre enfin une dimension de formation. Nous sommes actuellement en discussion avec l'Éducation nationale afin de mettre en place des outils de vulgarisation.

La fin de ma présentation porte sur le sujet qui, je pense, vous intéresse principalement : la sécurité et la souveraineté de la plateforme technologique. Je souhaite revenir sur les étapes qui nous ont amenées à choisir Microsoft et vous détailler où nous nous situons aujourd'hui au regard des décisions prises.

À l'été 2018, la ministre de la santé confie à la direction de la recherche, des études, de l'évaluation et des statistiques (DRESS) la feuille de route élaborée lors de la mission de préfiguration. À cette occasion, nous avons rencontré énormément d'acteurs : principalement des industriels français et des acteurs du monde de la recherche. Nous avons ensuite élargi notre champ, puisque nous nous sommes rendus compte que nos exigences étaient assez élevées. La première de nos exigences était la sécurité – cela n'a pas été tout de suite compris dans les débats qui ont eu lieu l'année dernière. D'aucuns pensent que nous avons choisi Microsoft en raison de ses capacités de machine learning ; en réalité, nous avons choisi Microsoft pour les services managés de sécurité. Il est extrêmement important de comprendre cela. Il n'existe aucun niveau équivalent dans l'industrie française en matière de services managés de cybersécurité, de ségrégation des droits, de gestion des droits, de traçabilité totale des activités de la plateforme. Or c'est cela que nous recherchions spécifiquement. Nous n'avons pas décidé nous-même de ces exigences de sécurité. Celles-ci sont réglementaires : elles sont issues du référentiel de sécurité du Système national des données de santé, qui est très peu connu du grand public. La plupart des gens connaissent la certification des hébergeurs de données de santé (HDS), qui n'est pas obligatoire dans notre cas, mais bienvenue. C'est bien le référentiel de sécurité du SNDS qui est « incontournable » et qui constitue une exigence légale.

Nous avions également des exigences de performance : comme il ressort des exemples que j'ai précédemment donnés, nous souhaitons pouvoir croiser beaucoup de données et faire tourner du deep learning sur des IRM en masse, par exemple. Nous devons donc avoir une capacité à scaler, c'est-à-dire disposer d'une infrastructure capable de changer de taille en fonction des projets. C'est ce que le cloud nous permet de faire.

Enfin, nous posions une exigence de délai. Ce projet ne peut pas attendre : nous devons développer les usages numériques en santé et la crise a conduit, je crois, à une prise de conscience générale à ce sujet.

Nous avons ainsi choisi la solution de Microsoft, qui était la seule à répondre à toutes ces exigences. Il faut bien comprendre que notre plateforme n'est pas confiée à Microsoft : nous avons choisi le logiciel Azure de Microsoft, et Microsoft est, à ce titre, l'un de nos partenaires technologiques. Nous travaillons avec une dizaine de partenaires technologiques : la start-up française de cybersécurité Wallix, par exemple, nous fournit le bastion. Le Health Data Hub est souvent résumé à Microsoft ; mais nous n'avons pas demandé à Microsoft de construire une plateforme pour répondre à nos besoins. Microsoft est l'un de nos partenaires technologiques. L'un de nos plus gros partenaires technologiques est, d'ailleurs, la société française Open, qui est notre intégrateur.

Nous avons, dès le départ, posé la réversibilité de la plateforme comme l'une de nos exigences. Cela aurait été le cas même si nous n'avions pas eu recours à Microsoft. La réversibilité est indispensable. Dans tous les cas, il ne faut pas se retrouver piéger dans une solution technologique. Nous développons la plateforme en infrastructure as Code, c'est-à-dire programmable : nous essayons de disposer de scripts et de faire le moins d'actions manuelles possible. Nous pourrons alors, le moment venu, réutiliser les programmes informatiques : nous devrons alors les reparamétrer en partie, évidemment, mais une grande partie du travail sera réutilisable – c'est ce que l'on appelle la réversibilité.

Qu'avons-nous réalisé en faveur de la réversibilité, hormis cette automatisation ? Nous avons conduit deux études de réversibilité à ce jour. Cette exigence de réversibilité est inscrite dans la feuille de route et partagée par tous les acteurs partenaires du groupement d'intérêt public. À la fin de l'année 2019, nous avons publié notre première étude qui comparait l'acteur français OVH avec Microsoft et identifiait un écart important entre les deux. En juin 2020, nous avons mis à jour cette étude avec la direction interministérielle du numérique (DINUM). Nous avons alors identifié les quatorze besoins indispensables de la plateforme. Pour le moment, OVH n'en couvre que cinq. Ceci étant dit, nous n'avons aucun doute sur le fait que les acteurs français ont mis au point des feuilles de route très ambitieuses et vont progressivement réduire cet écart.

La souveraineté est un objectif pour chacun d'entre nous. Nous devons, nous, combiner cet objectif avec d'autres : ainsi, notre objectif prioritaire est de servir les patients. Les mesures de sécurité que nous avons mises en place ont été approuvées. Le débat ouvert aujourd'hui sur la souveraineté de la plateforme ne concerne donc pas la sécurité. Les données sont pseudonymisées et chiffrées. Nous avons recours à énormément de services de cybersécurité. Nous avons fait réaliser plusieurs audits par des prestataires d'audit de la sécurité des systèmes d'information (PASSI) qualifiés par l'ANSSI. Un audit de l'ANSSI est actuellement en cours. Nous avons reçu un avis de la DINUM, un considérant du Conseil d'État dans son ordonnance a souligné le haut niveau de sécurité de la plateforme. La CNIL a déjà autorisé huit projets. Il est maintenant clair que la plateforme a atteint un très haut niveau de sécurité. Cela n'empêche cependant pas de poursuivre un objectif de souveraineté ; la difficulté est de savoir quels objectifs se cachent derrière la notion de souveraineté. Cela n'est pas clair pour l'instant.

Nous identifions actuellement des financements dans le cadre de France Relance, et menons des discussions avancées avec l'ANSSI pour construire une plateforme souveraine qui pourrait être la cible de la migration que vous évoquiez. Nous sommes très impliqués dans l'action conjointe de la Commission européenne, qui a été lancée le 1er février et devrait durer deux ans. Le lot de travaux concernant l'infrastructure pourrait faire le lien avec GAIA-X. L'initiative French Gaia-X Hub, quant à elle, a été lancée il y a quelques semaines : elle met en place des groupes de travail thématiques et nous participons notamment au groupe de travail des « utilisateurs santé ». Nous souhaitons travailler collectivement à construire une solution plus souveraine, tout en gardant en tête que le Health Data Hub n'est pas nécessairement la seule dimension d'un espace commun de données de santé à l'échelle européenne.

Par ailleurs, et pendant ce temps, nous continuons nos échanges très réguliers avec les différents acteurs de la filière. Nous avons récemment conduit un premier échange au sujet de la solution Anthos avec OVH et Google. Nous continuons donc évidemment à suivre l'évolution du marché.

Aucun commentaire n'a encore été formulé sur cette intervention.

Cette législature étant désormais achevée, les commentaires sont désactivés.
Vous pouvez commenter les travaux des nouveaux députés sur le NosDéputés.fr de la législature en cours.