Intervention de Ludovic Haye

Réunion du jeudi 9 décembre 2021 à 9h30
Office parlementaire d'évaluation des choix scientifiques et technologiques

Ludovic Haye, sénateur, rapporteur :

. – Est-ce que le stockage de données sur l'ADN est une simple idée géniale d'un chercheur ou est-ce une piste prometteuse ? Je vais essayer de vous expliquer pourquoi l'ADN est bien adapté au stockage des données. Naturellement, l'ADN stocke le génome humain et joue donc déjà un rôle dans le stockage de l'information. Est-ce qu'à la place de données biologiques on peut y stocker des données numériques ? Cette question sera le fil rouge de ma présentation. Cette molécule est présente dans les cellules de tous les êtres vivants et elle supporte le matériel génétique. Pourquoi parle-t-on aujourd'hui de stockage de données sur l'ADN ? Parce le volume des données numériques est en train d'exploser. Rien qu'en 2020, 47 zettaoctets de données ont été créés.

Un bref rappel des mesures de grandeur s'impose : un octet, c'est un groupe de huit bits, chacun portant une information élémentaire binaire que l'on peut symboliser par un 0 ou un 1. Un caractère peut être codé par un octet ; une page nécessite environ 3 kilooctets ; 300 pages, un mégaoctet ; une bibliothèque, un gigaoctect. Aujourd'hui, on ne parle pratiquement plus de gigaoctets, on est dans les téraoctets et les pétaoctets. Un téraoctet, cela représente 6 millions de livres ou une pile de 200 DVDs, et un pétaoctet, qui est devenu monnaie courante aujourd'hui dans les entreprises, représente 1015 octets, soit une pile de DVDs de 200 mètres de hauteur. Les exaoctets (1018 octets) qui sont également monnaie courante pour toutes les entreprises du CAC 40 correspondent à une pile de DVDs d'un kilomètre. Les zettaoctets (Zo, 1021 octets) équivalent à une pile de DVDs qui irait de la Terre à la Lune. Enfin, le yottaoctet (1024 octets), c'est ce que devrait pouvoir stocker le centre que va ouvrir la National Security Agency américaine (NSA) en 2023, soit le volume d'informations qui sera généré d'ici cinq ans.

Cet emballement s'explique par des appareils qui génèrent de plus en plus de données, car notre société est entrée dans une phase de numérisation. Ces données doivent être stockées. Aujourd'hui, elles le sont dans des data centers. Si les données sont transparentes, les bâtiments qui les stockent consomment de l'énergie – cela représente 3,6 % de la consommation énergétique mondiale actuelle –, des surfaces agricoles, des ressources telles que des métaux, des terres rares, beaucoup d'eau pour les refroidir, ce qui a des conséquences environnementales. Or, en 2040, la sphère globale des données devrait atteindre 5 000 Zo. Le problème des data center s est la fragilité : la durée des supports de stockage (actuellement des disques magnétiques) est comprise entre 5 et 7 ans. Tout le monde a fait l'expérience de supports d'écriture dépassés (les disquettes, les CDs) à la fois parce que leurs cycles de vie sont courts, mais également parce qu'on ne fabrique plus ce genre de support. Depuis 2010, la demande en capacités de stockage est supérieure à l'offre, ce qui laisse craindre une « crise des données » dans les prochaines années, qu'on ne saura plus où stocker.

Les conséquences environnementales du numérique sont de plus en plus importantes. Il nous faut un système de stockage plus dense, plus écologique et que nous serons capables de lire dans plusieurs décennies, plusieurs siècles, voire plusieurs millénaires. Le stockage sur l'ADN devrait le permettre dans la mesure où il promet un stockage dense, non soumis à l'obsolescence et durable puisque c'est une ressource qu'on trouve facilement et qui consomme peu d'énergie. J'attire tout de suite votre attention sur le fait qu'il est hors de question de réinjecter dans l'être humain de l'ADN qui stockerait des données. Aujourd'hui, les êtres humains stockent l'équivalent de 2,7 Zo dans leur ADN. Si dans 1 gramme d'ADN, on peut entreposer 0,45 Zo, on peut estimer que l'ensemble des données mondiales pourraient tenir dans 100 g d'ADN. Les perspectives quant au volume des données à venir suggèrent qu'il faudra l'équivalent de la pièce dans laquelle nous nous trouvons pour les stocker. Par ailleurs, si l'ADN est stocké dans des conditions appropriées et qu'on empêche toute réaction chimique avec l'air ou l'eau, il pourra être conservé à température ambiante des dizaines de milliers d'années.

Je vais maintenant vous décrire le principe du stockage dans l'ADN. On part d'un fichier connu numérique (.xls, .ppt, etc.) qu'il va falloir faire passer du code binaire des octets au langage quaternaire des nucléotides A, C, G, T (adénine, cytosine, guanine et thymine). Pour passer de 2 à 4, on va créer des couplets de bits et on va les associer à une base. On va traduire les 0 et les 1 en A, C, G, T. Lorsque le fichier numérique est traduit en une séquence de bases, on va créer une molécule ADN qui correspond à cette séquence. C'est cette étape qui est coûteuse. Le brin d'ADN est ensuite stocké afin de pouvoir être lu ultérieurement. C'est la phase dormante. Le jour où quelqu'un voudra lire le fichier, il fera la procédure inverse et convertira les bases A, C, G, T en code binaire. Comme un couple de bits donne quatre combinaisons possibles de 0 et de 1, on va associer chacune de ces combinaisons à l'une des quatre bases : on dit que le A, c'est le 00 (« zéro-zéro »), le C, c'est le 01 (« zéro-un »), le G c'est le 10 (« un-zéro ») et le T c'est le 11 (« un-un »). Ceci couvre l'ensemble des combinaisons possibles, qui correspondent aux 4 bases qui constituent l'ADN. Je précise que dans l'ADN, il n'y a pas que de la donnée pure, on doit ajouter des octets qui servent de « flags », c'est-à-dire des étiquettes pour savoir où est l'en-tête, ainsi que d'autres petits morceaux qui servent à corriger les erreurs. À l'instar d'un CD qui, lorsqu'il est gravé, peut faire l'objet d'une rayure, on n'est pas à l'abri d'erreurs au moment de la synthèse de l'ADN. Les chercheurs ont donc développé des séries de bases qui peuvent corriger ces erreurs.

La synthèse de l'ADN est la phase la plus critique, qui coûte le plus cher. La méthode la plus répandue consiste à faire de la synthèse séquentielle. On ajoute un par un les nucléotides. Sur chacun est fixé un groupement protecteur qui empêche les emballements dans l'écriture. Ce groupement est ensuite enlevé pour fixer le nucléotide suivant. Il n'est pas intéressant de faire de trop grandes chaînes, car les chaînes longues augmentent les risques d'erreurs. On préférera donc travailler avec des brins d'ADN relativement courts. La deuxième méthode est celle de la réaction chimique, grâce à des enzymes. Une entreprise française est leader dans ce domaine.

L'ADN stockant les données est ensuite placé dans une capsule en inox, qui le protège de toute réaction chimique. Une capsule de la taille d'une pilule peut contenir une grande partie de l'ensemble des informations numériques mondiales.

Aucun commentaire n'a encore été formulé sur cette intervention.

Cette législature étant désormais achevée, les commentaires sont désactivés.
Vous pouvez commenter les travaux des nouveaux députés sur le NosDéputés.fr de la législature en cours.