Mégadonnées

L’ADN, prochain média de stockage pour le “Big Data” ?

par Laurent Gloaguen,

2 août 2018.

L’ADN synthétique est durable et peut encoder des données numériques à haute densité, ce qui en fait un support attrayant pour le stockage à long terme. Microsoft est le fer de lance de la recherche sur cette technologie d’avant-garde.

Présente dans toutes les cellules des espèces vivantes, la « macromolécule » d’ADN stocke toutes les données génétiques relatives à la vie. Son existence a été découverte en 1869 par le scientifique suisse Friedrich Miescher. La structure à doubles hélices a été démontrée quant à elle pour la première fois en 1953 dans un célèbre article de la revue Nature. Depuis, de nombreux travaux de recherche ont illustré la complexité de l’information stockée dans l’ADN. Le génome humain, par exemple, compte à lui seul plus de 3 milliards de paires de bases. Son déchiffrement complet ne remonte d’ailleurs qu’à un peu moins d’une vingtaine d’années.

De nombreuses applications possibles

Il ne fallait qu’un pas pour que des chercheurs s’intéressent à l’ADN d’un point de vue informatique, notamment en ce qui concerne la capacité de stockage, mais aussi la structure des données. La bio-informatique s’attarde donc à cette masse de données, à son organisation, mais aussi aux procédés de stockage qui rendent l’information accessible à toutes les cellules vivantes.

Les applications concrètes de la réplication de cette structure pourraient être nombreuses, entre autres pour les bases de données, les moteurs de recherches, et enfin pour le nuage, dont l’organisation « organique » présente de nombreuses similitudes avec la biologie des êtres vivants : quantités impressionnantes de données, interconnexions complexes, etc.

Plusieurs équipes de chercheurs dans le monde s’intéressent spécifiquement à la capacité de stockage de l’ADN. Entre autres, des équipes de chez Microsoft, qui y voient diverses applications pour le nuage. En juillet 2016, Microsoft avait fait les manchettes en annonçant avoir stocké 200 mégaoctets de données dans de l’ADN, dont une vidéo musicale !

“Microsoft and University of Washington DNA Storage Research Project” (2016) :

Un stockage (pratiquement) infini

Des recherches ont permis de démontrer qu’il est théoriquement possible de stocker un quintillion d’octets (1 0¹⁸, 1 000 000 000 000 000 000) de données par millimètre cube d’ADN. L’ampleur et l’échelle de ce nombre sont au-delà de l’entendement humain !

L’année dernière, une équipe conjointe du New York Genome Center et de l’Université Columbia a obtenu une capacité de stockage réelle de 215 pétaoctets par gramme d’ADN. À titre de comparaison, tous les films produits depuis le début de l’histoire du cinéma, s’ils étaient stockés numériquement dans de l’ADN, tiendraient dans un peu moins que la taille d’un cube de sucre.

« L’ADN est le médium de stockage connu le plus dense de l’univers, selon les lois de la physique. C’est pour cette raison que les chercheurs s’y intéressent » affirme Victor Zhirnov, scientifique en chef pour le Semiconductor Research Corporation, un institut de recherche américain. Alors pourquoi l’ADN attire-t-il les firmes telles que Microsoft ou Intel ? C’est qu’alors que les limites physiques de stockage des supports actuels ont probablement presque atteint leur limite, ces recherches prennent tout leur sens dans un contexte d’explosion du « big data » tel qu’on le connaît à l’heure actuelle.

Fabriquer de l’ADN

Comment ça fonctionne ? Pour la fabrication, Microsoft fait affaire avec Twist Bioscience, une compagnie de biotechnologie située à San Francisco. Les États-Unis accueillent de nombreuses start-up du même genre, qui manufacturent de l’ADN ou essaient d’en améliorer la fabrication.

Depuis près de 40 ans, il est en effet possible de créer de l’ADN à partir d’un processus de synthèse chimique qui lie des acides nucléiques individuels en brins plus longs. Toutefois, certaines des entreprises dans ce domaine souhaiteraient révolutionner ce processus fastidieux et sujet à l’erreur. La principale percée pourrait venir d’une fabrication à partir d’enzymes, comme pour le code génétique chez les humains.

Oublier les 0 et les 1

La complexité vient du procédé d’encodage relatif à la biogénétique. Les données doivent être converties en code spécifique à l’ADN, soit des chaînes de nucléotides : les fameux A, G, C et T. Ce processus d’encodage rend l’exercice long, complexe et coûteux à l’heure actuelle et il s’agit du principal frein pour le moment.

La manière d’encoder l’ADN devra de plus être automatisée et accélérée… Selon Doug Carmean, un architecte chez Microsoft Research, l’entreprise réussit maintenant à le faire à une vitesse d’environ 400 octets par seconde. Mais pour que l’option devienne viable, c’est plutôt 100 mégaoctets par secondes qui devraient être atteintes.

Microsoft estime également que le coût actuel du stockage dans l’ADN devrait être réduit par 10 000 avant de devenir assez compétitif pour favoriser son adoption. Cette étrange technologie s’appuyant sur les mêmes molécules que celles de nos gènes n’est donc pas à la veille d’être dans nos ordinateurs.

Néanmoins, le géant souhaite avoir un système de stockage opérationnel basé sur ADN dans un de ses centres de données d’ici la fin de la décennie. Ce système, toujours selon Carmean, pourrait ressembler à « un gros photocopieur Xerox des années 70 ».

Un matériau ultra-durable

Divers experts en semiconducteurs ont déjà présumé que l’ADN serait un matériel « trop mou » pour être considéré comme médium de stockage… Mais dans les faits, l’ADN peut durer entre 100 et 1 000 fois plus longtemps que les dispositifs actuels ! Et l’information est tellement durable et stable qu’elle peut encore être récupérée et lue sur les restes d’êtres vivants vieux de dizaines de milliers d’années, ayant résisté aux ères de glaciations et autres catastrophes naturelles. Pourra-t-on en dire autant de nos actuels supports magnétiques, y compris les bandes encore utilisées en entreprise pour effectuer des sauvegardes informatiques ?

L’ADN synthétique est durable et peut encoder des données numériques à haute densité, ce qui en fait un support attrayant pour le stockage à long terme de données. Mais pour récupérer des données stockées à grande échelle, il faut actuellement que tout l’ADN d’un pool soit séquencé, même si seul un sous-ensemble de l’information doit être extrait. Toutefois, Microsoft a annoncé en février dernier avoir été en mesure de coder et stocker 35 fichiers distincts (plus de 200 Mo de données) dans plus de 13 millions d’oligonucléotides d’ADN, et de pouvoir récupérer chaque fichier individuellement et sans erreurs en utilisant une approche d’accès aléatoire.

Le temps nous dira si d’ici la fin de la décennie nous stockerons nos fichiers encodés en bases nucléiques, mais à l’ère de l’informatique quantique, plus rien ne devrait nous étonner.