Merci beaucoup pour cette invitation et l'opportunité qui m'est ainsi donnée de présenter les sujets sur lesquels nous travaillons.
Je vais, si vous me le permettez, me présenter plus précisément, afin d'expliquer comment il est possible d'être à la fois chercheur à l'École des Mines et chez Google. J'ai étudié en France et suis mathématicien de formation. Je travaille depuis une quinzaine d'années à l'interface entre l'intelligence artificielle et la santé. Mes travaux de recherche portent plus spécifiquement sur le développement d'algorithmes, essentiellement statistiques, sur le machine learning, pour traiter des données de génomique dans le cadre de la recherche contre le cancer. Je poursuis ce faisant essentiellement deux objectifs : l'un relevant plutôt de la recherche fondamentale, visant à comprendre la maladie au niveau moléculaire, afin d'aboutir potentiellement à de nouveaux traitements ; l'autre, plus proche de la recherche clinique, consistant à voir comment exploiter les données génomiques pour personnaliser les traitements, les adapter à chaque individu en fonction de son patrimoine génétique et de la génétique des tumeurs, c'est-à-dire faire de la médecine dite « de précision ».
Comme l'a rappelé Cédric Villani, j'ai eu un parcours essentiellement académique et n'ai rejoint Google que l'an dernier. Aujourd'hui, j'effectue mes recherches dans le laboratoire de Google IA, ouvert à Paris en 2018. Je suis également chercheur associé à l'École des Mines. Concrètement, je continue à enseigner à l'École des Mines, à l'École normale supérieure, à encadrer des étudiants. J'interviens également à l'Institut Curie. Venant du monde académique, je puis vous dire que la recherche telle qu'elle est conçue chez Google s'apparente à la recherche académique. Le fonctionnement de la recherche dans le laboratoire Google IA au sein duquel je travaille passe notamment par des publications. Nous entretenons des liens très forts avec la communauté scientifique, par le biais d'échanges de chercheurs, de participations à des événements scientifiques. En plus des publications, un effort est également effectué pour développer des logiciels mis à la disposition de la communauté scientifique et industrielle. Beaucoup de ces logiciels sont en open source, ce qui signifie qu'ils peuvent être téléchargés gratuitement. Dans le cas de la génomique par exemple, le logiciel DeepVariant, développé l'an dernier par des équipes de recherche de Google aux Etats-Unis et ayant donné lieu à une publication dans Nature Biotechnology, permet de reconstituer la séquence du génome d'un individu séquencé et peut être téléchargé gratuitement sur le web.
J'aimerais, après cette longue introduction, profiter des quelques minutes qui me restent pour illustrer le potentiel de l'intelligence artificielle dans le domaine de la santé à travers trois exemples concrets, issus de mes travaux ou des recherches menées chez Google.
Aujourd'hui, j'observe, en tant que chercheur, que l'IA joue un rôle croissant et très important dans la recherche scientifique. Il a été largement question ce matin d'applications cliniques, diagnostiques, d'aide à la prise de décision. Mais en matière de santé, il ne faut pas oublier tout le volet lié à la recherche fondamentale, mené dans les entreprises pharmaceutiques, les laboratoires, pour trouver des cibles thérapeutiques, comprendre les mécanismes fondamentaux en jeu dans les maladies. Aujourd'hui, une grande part de cette recherche se fait de manière « data driven » : de nombreux laboratoires utilisent des techniques générant beaucoup de données et les outils de statistique et d'intelligence artificielle sont là pour les exploiter, leur donner du sens et permettre aux chercheurs de les comprendre. Je travaille par exemple avec des collaborateurs aux États-Unis et à l'Institut Curie sur de l'analyse de données qualifiée de génomique de cellules uniques : il existe aujourd'hui des techniques qui, face à une tumeur, peuvent mesurer à l'intérieur de chaque cellule de la tumeur (ce qui représente plusieurs centaines de milliers, voire des millions de cellules) des millions de paramètres génomique (expression des gènes, mutations, épigénomique, etc). Une telle expérience génère, vous l'imaginez, des teraoctets de données. Ce sont donc des outils d'intelligence artificielle que nous développons qui permettent de donner un sens à ces données, de comprendre par exemple dans ce cas précis l'hétérogénéité dans la tumeur, d'identifier des sous-populations de cellules susceptibles d'être responsables d'une résistance à un traitement, voire de comprendre au niveau moléculaire ce qui se passe dans ces cellules pour essayer de développer de nouveaux traitements. L'IA joue ainsi un rôle fondamental aujourd'hui dans la recherche scientifique.
Le deuxième exemple, dont il a été largement question ce matin, est l'utilisation de l'IA dans le diagnostic, notamment par l'automatisation de l'analyse d'images (radiologies, IRM, images d'anatomopathologie). De nombreux acteurs publics et privés interviennent dans ce domaine, où règne une grande compétition. Une équipe de Google a par exemple développé en 2017 un logiciel nommé LYNA (pour « Lymph Node Assistant »), qui se concentre, pour les patientes atteintes de cancer du sein, sur la détection de cellules cancéreuses métastatiques au niveau des ganglions lymphatiques, ce qui constitue une information cruciale pour la prise de décision médicale. Un challenge a été organisé, consistant, à partir d'images d'anatomopathologie de ganglions lymphatiques, à détecter ceux présentant des cellules cancéreuses. Google n'a pas participé à ce challenge, mais a utilisé les données pour développer un algorithme. Dans le cadre de ce challenge, les données consistaient en 270 images, à partir desquelles les équipes de Google sont parvenues à développer des algorithmes qui font aussi bien que des spécialistes humains d'anatomopathologie. Bien évidemment, ce logiciel ne prend pas de décision seul, mais peut fournir une aide utile aux médecins. Des publications récentes de Google montrent que, grâce à de tels outils, un médecin peut diviser par deux le temps passé sur une image et donc multiplier par deux le nombre de cellules qu'il détecte. La technique est là. Les données sont des données publiques et l'on peut vraiment, avec des algorithmes à l'état de l'art, faire progresser certains domaines.
Je terminerai en évoquant l'exemple du diagnostic de la rétinopathie diabétique. Google et d'autres ont développé des algorithmes sur des jeux de données annotées, des fonds d'oeil dont certains avec de la rétinopathie diabétique et d'autres non. Il s'agit là aussi d'un domaine où la performance atteinte par l'algorithme avoisine celle d'un ophtalmologue. La FDA a d'ailleurs, comme ceci a été indiqué précédemment, autorisé récemment l'utilisation de cette technique sans supervision humaine. Google dispose d'un algorithme similaire et vient de lancer en Thaïlande une grande campagne, en accord avec le ministère de la santé, pour tester cinq millions de personnes diabétiques, dans un pays qui ne compte que 1 400 ophtalmologues. Ceci illustre bien le potentiel offert par l'utilisation de ces outils dans le monde, en matière notamment de lutte contre les déserts médicaux. Google est une entreprise mondiale et doit se poser la question de savoir comment aider aux progrès de la médecine dans ces régions.