Intervention de Cédric Villani

Réunion du mercredi 7 novembre 2018 à 12h40
Mission d'information sur la révision de la loi relative à la bioéthique

Photo issue du site de l'Assemblée nationale ou de WikipediaCédric Villani :

Concernant les bases de données, je vous recommande la lecture du rapport Combes, qui dresse un excellent panorama du contexte et constitue une très bonne préfiguration de ce que serait un grand système de bases de données.

Quels sont les éléments qui limitent pour l'instant l'utilisation de nos grandes bases de données ? Le premier facteur est qu'elles sont insuffisamment structurées. Les difficultés d'utilisation de la gigantesque base de données qu'est le système national d'information inter-régimes de l'assurance maladie (SNIIRAM) le montrent bien. S'ajoute à cela le fait qu'elles ne sont pas portées par des matériels très rapides. En France, Emmanuel Bacry est celui qui a le plus travaillé, dans le cadre de l'École Polytechnique, pour développer la recherche sur le SNIIRAM et tout ce qu'il est possible d'en tirer. Sa compétence ne fait aucun doute et l'on peut donc lui faire confiance lorsqu'il indique que cette base est très difficile à exploiter, en raison de la manière dont les informations y sont rangées.

Le deuxième facteur limitant concerne le besoin d'interconnexion des bases de données. Si l'on consulte le SNIIRAM, on peut, par exemple, apprendre qu'un patient a été remboursé pour tel acte ou tel médicament, mais rien n'indique s'il est mort ou s'il a survécu. Lorsqu'il s'agit d'envisager l'efficacité d'un acte ou d'un traitement, cela pose un problème... Un patient peut également aller en milieu hospitalier, puis bénéficier d'une consultation en ville ou se retrouver en discussion avec sa mutuelle sur un sujet donné : c'est dans la connexion de toutes ces bases de données, détenues par des acteurs différents, avec des responsabilités et des systèmes différents, que l'on va générer la meilleure valeur ajoutée. Or c'est un véritable casse-tête. Il appartient à l'État de garantir l'interconnexion et de créer la plateforme sectorielle de santé sur laquelle les applications pourront s'appuyer ; il appartient aux start-up de tester leurs développements et aux hôpitaux de chercher à mettre en oeuvre des solutions « maison ».

La sincérité des informations peut aussi être un frein. J'ai évoqué précédemment la question de la réalité des actes inscrits dans ces bases, en distinguant l'acte effectif de l'acte remboursé. Des erreurs de transcription sont également possibles. Il est donc nécessaire de développer des outils permettant d'analyser les rapports écrits par les praticiens, par les internes, et de les transformer en informations structurées. Une information n'a de valeur que si elle est correctement structurée et rangée dans les bonnes cases, selon un certain nombre d'axes. Les systèmes les plus efficaces pour exploiter les bases de données médicales, dont celui mis en oeuvre par Israël, qui fait référence en la matière au niveau international, sont ceux dans lesquels les données sont rangées de la façon la plus systématique, dans un contexte de contrainte très forte sur les praticiens, avec un enregistrement des données bien avant que l'on sache comment les utiliser.

Imaginons que différents acteurs se soient entendus pour créer une base de données. Vient alors la question de la réalisation pratique, avec un triple défi à relever.

Le premier est technique : il s'agit de disposer de matériel hardware à niveau, des bons formats, des certifications adéquates et de la cybersécurité, dans un contexte où la sécurité va s'imposer comme un problème de plus en plus important pour toutes les institutions. Les actions de piratage sont en effet amenées à se multiplier, qu'elles soient le fait d'individus ou d'États. Cette question technique ne doit pas être négligée.

La deuxième difficulté à surmonter est légale et éthique : cela suppose des discussions avec la Commission nationale de l'informatique et des libertés (CNIL) et l'Institut national des données de santé (INDS) lorsqu'il s'agit de sujets de recherche. Or la délivrance des autorisations nécessaires pour mener des projets de recherche prend parfois plusieurs années, ce qui peut s'avérer mortel pour une start-up qui veut mettre en place un modèle de diagnostic automatique, ou empêcher un hôpital de gérer tel ou tel projet. Ce deuxième défi a été bien identifié par les acteurs en situation de responsabilité. La CNIL a ainsi effectué un travail considérable à base de référentiels, d'assouplissement et d'évolution de doctrine pour raccourcir les délais. Mais il faut une vigilance permanente pour éviter que ces délais ne se rallongent.

Le troisième défi, le plus sous-estimé, concerne la gouvernance. L'Assistance publique Hôpitaux de Paris (AP-HP) avait rapporté, lors de son audition, qu'il n'avait pas fallu moins longtemps pour résoudre ce problème de gouvernance que pour aplanir les difficultés techniques. La gouvernance consiste à décider comment les données vont être accessibles, par qui, qui aura la responsabilité, qui pourra décider de donner tel ou tel accord. Cela relève d'un jeu de pouvoir entre humains, toujours très difficile à régler. L'intelligence artificielle est basée sur le partage des données. Or, lorsque les gens comprennent que les données sont précieuses, le réflexe naturel est d'éviter qu'elles partent. Un hôpital aura scrupule à partager ses données avec un autre. Un département d'une grande entreprise peinera de même à communiquer ses données au département voisin. Cela peut s'expliquer par la crainte d'une mauvaise prise en charge de la cybersécurité, ou par un souci d'équité. Il existe ainsi des freins culturels à vaincre.

Tous ces problèmes ont été assez bien identifiés par les autorités, le ministère ou des acteurs comme l'Institut national de la santé et de la recherche médicale (INSERM). Un arbitrage important rendu dans le prolongement de la mission que j'ai coordonnée concernait le fait qu'un système de bases de données de santé devait être aussi large que possible du point de vue des thématiques couvertes, qu'il ne s'agissait pas de construire un système d'exploitation de la base de données administrative du SNIIRAM sans prendre en compte les autres bases.

En termes de protection de la confidentialité des données, la dissuasion est en général une assez bonne arme. Le règlement général de protection des données (RGPD) repose ainsi sur des dissuasions fortes, avec un système de confiance a priori, de contrôle a posteriori, et des amendes considérables en cas de manquement. Cela permet d'éviter des procédures trop lentes. Mettre trop de filtres à l'entrée, par exemple sous forme de demandes d'autorisation, freine en effet les procédures, dans un contexte où l'on a besoin, au contraire, de suivre un rythme de développement technologique très rapide.

La confidentialité peut être difficile à maintenir dans un contexte de données ouvertes. Cela suscite un débat délicat et très technique, qui impose d'évoquer la question du statut des données. Dans la doctrine française, et plus généralement européenne, les données ne sont pas propriété de la personne qui en est à l'origine. Elles ne sont pas non plus la propriété du producteur de données, mais s'apparentent à un bien commun, dans la mesure où elles peuvent nourrir un pool d'autres données et où c'est la conjonction de ces données qui va fournir la valeur statistique. Les données d'un individu ne permettent pas à elles seules de faire avancer la recherche médicale ; elles doivent pour ce faire être rapprochées de milliers d'autres dossiers. Seule la considération d'un ensemble statistique permettra de faire émerger des informations. Les données sont donc un bien commun dont l'utilisation est soumise à autorisation de la part du producteur de données et de la personne à laquelle les données se rapportent. Cette doctrine, en vigueur actuellement, s'oppose à la commercialisation de ces données, en particulier par la personne sur laquelle elles ont été prises.

L'utilisation des données suppose donc une mise en commun avec d'autres données. Plusieurs options se présentent. Le Président de la République a annoncé, lors de la présentation de la stratégie nationale en matière d'intelligence artificielle, l'ouverture des données de santé : toute donnée de santé pouvant être utile pour faire progresser la connaissance publique et la santé doit être rendue accessible. Cela étant posé, beaucoup de problèmes restent à résoudre. Comment et jusqu'à quel point anonymiser les données ? Qui y aura accès ? Seront-elles regroupées dans un pot commun ou resteront-elles dans des bases de données séparées, mais connectées, interopérables et accessibles en cas de besoin ? Cette dernière option semble préférable en termes de sécurité. Il faut toutefois garder à l'esprit, comme pour contredire mes propos, que la plupart des établissements dans lesquels se trouvent actuellement les données, dont les hôpitaux, sont insuffisamment équipés en cybersécurité. La généralisation de solutions de type cloud est souhaitable, en premier lieu pour garantir un meilleur niveau de sécurité.

L'anonymisation est une question délicate. Se contenter de pseudonymiser les données n'est pas suffisant, car il est assez facile en pratique – et ce le sera de plus en plus – de les réidentifier dans bien des situations. Cela a été démontré de façon spectaculaire aux États-Unis par l'équipe de Latanya Sweeney qui a, dans des bases de données de santé publiques, accessibles, réidentifié le dossier du gouverneur du Massachusetts. D'un autre côté, utiliser d'autres techniques d'anonymisation plus brutales, consistant par exemple à mélanger les données de plusieurs individus, avec des moyennes, fait courir le risque de « tuer » des informations importantes. On s'achemine donc vers une doctrine subtile, encore à définir, quant au niveau d'anonymisation et à sa signification. Il faudra notamment tenir compte du risque en fonction des données, certaines étant plus engageantes que d'autres, ayant un gain potentiel supérieur. Il faudra concentrer l'attention sur les données pour lesquelles le gain est le plus important. Cela passe également par le développement de techniques dites de differential privacy ou « confidentialité différentielle », qui renvoient à l'idée d'afficher des données différentes en fonction de la personne qui demande, avec des autorisations négociées. Il s'agit de délivrer uniquement l'information nécessaire pour mener une recherche donnée, dans un cadre donné.

Vous avez également évoqué l'excès d'utilisation commerciale des données, qui se manifeste notamment par la multiplication de publicités ciblées. Il s'agit de l'une des grandes réalisations des dernières années : on peut désormais produire des publicités très efficaces, qui s'apparentent à de la manipulation et consistent à convaincre la personne visée qu'elle a besoin d'un produit ou d'un service, en lui envoyant les informations appropriées. Parfois, les opérateurs cachent ce type de démarche. Par exemple, le fait que des femmes enceintes aient reçu des publicités ciblées, alors même qu'elles n'avaient pas fait état de leur grossesse, avait suscité une certaine émotion. Les opérateurs avaient pris soin de noyer ces publicités parmi d'autres, afin de laisser croire qu'ils n'avaient pas identifié ces femmes, de la même manière que lorsqu'on a « craqué » le code d'un ennemi, on ne va pas seulement opérer dans son périmètre, mais frapper plus large, afin de ne pas dévoiler son jeu. Le RGPD comporte des éléments visant à limiter au maximum ces opérations de ciblage non souhaité.

Ce genre de pratique est bien décrit dans l'ouvrage de Catherine O'Neil sur les « armes de destruction mathématique ». La manipulation fait partie des fléaux du XXIe siècle. Or ce phénomène n'avait pas été anticipé. Pour information, les techniques de manipulation d'élections, ou les publicités reposant sur des identifications de personnes, se sont avérées très efficaces : elles réduisent la personnalité des gens à un ensemble de cinq paramètres seulement, selon un modèle dit « OCEAN », et permettent d'envoyer, selon les cas, des messages visant à inquiéter, rassurer, déranger la personne, ou à attirer son attention. La personnalité de chacun est identifiée en fonction de ses tweets, du nombre de clics effectués sur une page Facebook et des sites visités, via des cookies, etc. Le RGPD a également été conçu par rapport à ces aspects.

En ce qui concerne l'instance éthique à mettre en oeuvre pour réfléchir aux questions liées à l'intelligence artificielle et à son champ d'action, il faut trouver un compromis. Un comité d'éthique s'occupant de tous les problèmes éthiques du monde sera inefficace, dilué. Il est certain que l'intelligence artificielle a de grandes potentialités, pour l'instant très peu exploitées. La puissance publique a des difficultés à se saisir de ce sujet, qui n'entre pas vraiment dans les champs d'expertise actuels des différents ministères. Certaines sociétés existent déjà, qui proposent leurs services pour toutes sortes de sujets relatifs au développement durable, à l'agriculture augmentée, etc.

Quel risque est pire que celui de mourir ? Je partage, cher collègue, votre point de vue. Pour autant, dans le contexte actuel, de nombreuses questions se posent qui existaient déjà auparavant. Imaginons qu'un médecin découvre au détour d'un examen de routine que son patient est atteint d'une maladie incurable : doit-il le prévenir, sachant qu'il n'est absolument pas préparé à cette annonce ? Que faire si un médecin découvre lors d'un examen une information incidente, n'entrant pas dans le cadre de sa consultation ? Pour l'instant, l'avis de l'OPECST reflète bien ces hésitations, en gardant de façon générale l'idée qu'un médecin ne doit donner que les informations pour lesquelles il a été consulté, sauf pour certains gènes particuliers liés à un risque accru de cancer du sein. L'utilisation du génome dans la médecine préventive est, pour l'heure, plutôt décevante. Aucune avancée majeure n'a été effectuée dans ce domaine, en dehors du fait que tel ou tel gène précis, dans tel ou tel cas particulier, est impliqué. D'aucuns pensent par ailleurs qu'il serait préférable, avant d'analyser le génome, de s'intéresser au microbiote, qui a un impact important sur la santé et peut être analysé par des systèmes d'intelligence artificielle.

Aucun commentaire n'a encore été formulé sur cette intervention.

Cette législature étant désormais achevée, les commentaires sont désactivés.
Vous pouvez commenter les travaux des nouveaux députés sur le NosDéputés.fr de la législature en cours.