La création de l'entrepôt de données de santé a été engagée à la fin de l'année 2015. Il se compose de structures organisationnelles et de gouvernance ainsi que d'infrastructures technologiques. Je vous présenterai, pour ma part, les choix technologiques opérés pour développer ces différentes infrastructures.
L'entrepôt de données de santé repose sur la collecte des données, puis sur leur consolidation : il s'agit de leur mise en forme, leur mise en qualité, leur standardisation. Interviennent ensuite les outils mis à disposition pour traiter les données, c'est-à-dire l'infrastructure de calcul.
Nous distinguons en la matière trois grands cas d'usage. Le premier, et le plus connu des cas d'usage, concerne la mise à disposition des données de soins à des fins de recherche ou d'appui à la recherche clinique. Le second cas d'usage concerne le pilotage : il s'agit d'utiliser les données médicales pour piloter l'activité hospitalière. Enfin, le dernier cas d'usage bénéficie à l'innovation : il consiste à réutiliser les données pour faciliter l'innovation numérique, par exemple par le développement d'algorithmes d'intelligence artificielle ou par la création d'interfaces d'accès standardisées aux données de l'AP-HP.
Nous avons choisi l' open source pour développer l'entrepôt des données de santé pour des raisons assez diverses. Tout d'abord, aucun outil sur étagère n'était capable de traiter notre projet dans sa globalité. Nous nous sommes donc appuyés sur l'outil i2b2 (Informations for Integrating Biology & the Bedside) : ce logiciel permet de créer des cohortes de patients. Il s'agit d'un outil open source développé par un hôpital aux États-Unis, qui est aujourd'hui utilisé par environ 250 hôpitaux dans le monde. Le recours à l' open source permet de bénéficier d'une très grande communauté. Nous avons souhaité nous insérer dans cette communauté internationale de l' open source, pour deux raisons principales : d'une part, aucun outil propriétaire n'était disponible sur le marché pour répondre à l'ensemble de nos besoins ; d'autre part, nous souhaitions maîtriser les outils que nous mettions en place et jouir d'une certaine indépendance. En matière de stockage de bases de données par exemple, nous utilisons PostgreSQL plutôt qu'Oracle. La maîtrise des coûts entre évidemment également en jeu : les solutions open source sont parfois moins chères que les solutions propriétaires. Enfin, nous estimions qu'utiliser l' open source nous permettait d'atteindre une meilleure capacité d'adaptation et d'être plus agiles dans le déploiement de nos outils.
Comment s'est construit l'entrepôt de données de santé ? La base de données de l'AP-HP contient à ce jour les données de plus de treize millions de patients. Nous avons mis en place la plateforme Jupiter, qui permet aux équipes de recherche de travailler sur les cohortes d'intérêt. Chaque espace de travail dispose des outils de data science classiques comme Python et R, et a accès à notre cluster de calcul qui est capable de conduire tout type de traitement sur les données : il permet de procéder aussi bien à des biostatistiques classiques qu'à de l'apprentissage automatique grâce à la puissance de calcul mise à disposition.
L'AP-HP a fait le choix, dès 2015, d'opter pour une infrastructure on-premise et non en cloud. Ce choix répondait à deux considérations : d'une part, la communauté médicale avait exprimé le souhait de maîtriser les données de l'AP-HP ; d'autre part, nous n'avons pas ressenti, jusqu'à présent, le besoin technique de recourir à des infrastructures cloud extérieures. La puissance de calcul que nous sommes capables de mettre à disposition de nos équipes de recherche est largement suffisante pour couvrir les besoins des projets en cours. Plus d'une centaine de projets ont été déposés auprès de nos instances et une centaine de projets sont aujourd'hui en cours sur nos infrastructures. La mise à disposition des données à des fins de recherche bénéficie donc d'une stack logicielle open source.
En revanche, en ce quoi concerne l'utilisation des données de santé pour le pilotage de l'activité hospitalière, nous avons eu recours à un outil existant sur le marché. Il était à la fois plus efficace et moins coûteux de s'appuyer sur cet outil, qui répondait complètement à nos besoins. Nous avons donc choisi une solution propriétaire d'IBM. Nous utilisons cette solution pour produire des indicateurs que nous restituons aux cliniciens, aux cadres de services médicaux, à la direction générale et aux directions des groupes hospitalo-universitaires.
Les choix opérés en matière de solutions technologiques nous laissent donc aujourd'hui la capacité de créer des interfaces entre plusieurs solutions. Par exemple, en matière de services d'information pour la recherche, nous souhaitons créer une boucle de rétroaction, c'est-à-dire alimenter la recherche clinique avec les données de soin et vice-versa. Nous travaillons ainsi à la fois avec des éditeurs de logiciels et avec des solutions open source, pour ouvrir un large spectre d'outils à nos chercheurs et couvrir l'intégralité de leurs besoins.