Nous partageons naturellement cette problématique du fait de notre expérience de l'accès aux données depuis de nombreuses années, et notamment au sein du HDH.
Le parcours d'accès à ces données a été défini par la loi. Il encadre la manière dont les dossiers doivent être déposés auprès du CESREES, qui les examine, au regard de leur intérêt public, de leur méthodologie et de la pertinence de la recherche envisagée, etc. Il émet un avis, qui est transmis à la CNIL, laquelle fournit sa réponse.
Plusieurs questions se posent toutefois à cet égard. En premier lieu, les données médico-administratives du SNIIRAM-SNDS sont complexes, et les chercheurs ne les connaissent pas nécessairement. Pour déterminer quelle extraction de données issues du SNDS est requise par le projet déposé par un chercheur, de nombreux allers-retours sont souvent nécessaires entre le chercheur et les responsables de données travaillant à la CNAM. Soit, par exemple, un chercheur souhaitant enquêter sur la cohorte des diabétiques en 2018 : il existe en réalité plusieurs types de diabétiques, répondant dans le SNDS à différentes définitions. Ainsi, le chercheur devra notamment préciser si les patients qui l'intéressent sont fortement traités (donc sous insuline), ou s'ils reçoivent trois, ou six, traitements antidiabétiques par trimestre, ce qui renvoie chaque fois à des catégories différentes. Le chercheur devra ainsi définir la notion de « diabétique » qui l'intéresse à travers des données administratives, et non médicales : il ne suffira pas de demander l'ensemble des personnes présentant tel ou tel niveau de glycémie lors de leurs tests. Il n'est donc pas simple de passer de l'idée d'un projet à la caractérisation des données à exploiter. Ce point a toujours été sous-estimé par les chercheurs. Bien sûr, nous travaillons avec le HDH pour délivrer une formation à tout chercheur qui dépose un projet, pour lui expliquer comment sont constituées les données, ce qu'il est possible d'en tirer et la manière de les traiter. Elles font également l'objet d'une documentation publique et ouverte à tous, de plus en plus volumineuse. La nécessité d'obtenir l'autorisation de la CNIL ne constitue donc pas nécessairement le principal problème dans la complexité actuelle du processus d'accès aux données.
Par ailleurs, les projets déposés sont nombreux, ce qui constitue une charge importante pour le CESREES comme pour la CNIL. Des travaux sont donc en cours entre la CNIL, le Health Data Hub et le ministère, pour encadrer le principe général des études susceptibles d'être autorisées, et les méthodologies de référence dans lesquelles elles pourront s'inscrire pour accéder plus rapidement aux données. Un échange restera néanmoins nécessaire au terme de ce parcours pour déterminer quelles données le chercheur souhaite exactement extraire du SNDS. Les travaux de fluidification en cours sont donc nécessaires, et ils pourraient simplifier les parcours d'accès aux données pour un certain nombre d'études, mais il faut bien comprendre que ces données ne sont pas nativement construites pour la recherche, et qu'elles nécessitent un travail d'appropriation, généralement complexe, par les chercheurs. Naturellement, de plus en plus d'unités de recherche et de cabinets d'étude ont cependant déjà eu accès aux données du SNDS, et savent donc exprimer leurs besoins de manière pertinente et efficace. Tous les chercheurs « naïfs SNDS » (pour reprendre une expression courante en médecine) ont quant à eux besoin d'un certain temps pour comprendre quelles données sont présentes dans le SNDS et pouvoir les utiliser.
Or, comme vous le savez sans doute, et comme cela a dû être signalé par de nombreuses personnes au cours de vos auditions, le milieu de la recherche est en réalité très concurrentiel, et assez peu coopératif. Les producteurs d'une cohorte souhaitent donc d'abord valoriser leurs propres travaux sur cette cohorte avant de laisser les autres l'exploiter. Un vrai accompagnement des producteurs de données est donc nécessaire, pour qu'ils passent d'une attitude de propriétaire, à une volonté de partage de l'ensemble de leurs données. L'un des rôles du Health Data Hub est ainsi de réunir les « propriétaires » ou producteurs de données pour définir avec eux les conditions d'un partage qui reconnaisse aussi la tâche de production des données et la nécessité d'un retour sur investissement pour ceux qui s'attachent à produire des données, qui sont parfois exploitées par d'autres. Ce retour sur investissement est naturellement extrêmement important pour que les chercheurs continuent à construire des données et à les partager.
De la loi de 2019, résultent le SNDS élargi et un cadre réglementaire pour faciliter les appariements. Le HDH a aussi repris les missions de l'INDS pour les étendre à l'accompagnement de projets, au partage et à l'amélioration de l'usage des données pour l'ensemble des porteurs. Cette mission de fédération des acteurs est extrêmement importante pour le HDH.
S'agissant du choix de Microsoft par le Health Data Hub pour héberger ses données, je laisserai Mme Stéphanie Naux s'exprimer dans un premier temps.