Almacenamiento de ADN, ¿la solución a la crisis de datos humanos?
Al igual que Liu, puede que sea demasiado tarde para detener la rotación de la Tierra y escapar del sistema solar. Y si, como en el Arca de Noé, el cerebro se utiliza para transportar seres humanos, animales, plantas y conocimiento humano a una nave espacial, la capacidad existente del cohete tal vez no sea capaz de contener ni siquiera una milmillonésima parte de estos materiales.
Si queremos preservar la información biológica de la Tierra el mayor tiempo posible, solo necesitamos recopilar y empaquetar la información de la secuencia de ADN de todas las especies, y se puede preservar en el ambiente de baja temperatura de la Tierra. naves espaciales durante cientos de miles de años; y la civilización humana. ¿Qué pasa con la información? Sabemos que la forma más eficaz de esta información son los datos, y los datos se almacenan en discos duros y discos ópticos.
Una vez más nos desanimamos cuando pensamos en el peso y la densidad de datos de estos dispositivos de almacenamiento en disco duro. Es más, los datos podrían perderse antes de que la nave espacial abandone el sistema solar, porque el disco duro o el CD-ROM mueren.
Entonces, ¿se puede utilizar el ADN como disco duro para almacenar información de datos? La respuesta es sí.
El ADN es sin duda la herramienta de almacenamiento de información sobre la vida más antigua del mundo. También se puede utilizar como medio de almacenamiento para información de datos, y su densidad de almacenamiento y vida útil superan con creces las soluciones de almacenamiento basadas en disco existentes. Por lo tanto, el almacenamiento de ADN es reconocido como el futuro del almacenamiento de datos y la mejor opción para salvar la crisis de almacenamiento de datos de la humanidad.
¿Cómo funciona el almacenamiento de ADN? ¿Dónde está ahora? ¿Cuáles son las barreras a la comercialización? Necesitamos responder estas preguntas una por una.
Antes de comprender cómo funciona el almacenamiento de ADN, primero comprendamos los principios de dos soluciones existentes: la memoria magnética y la memoria óptica.
El principio del almacenamiento magnético es recubrir un material metálico con un medio magnético y producir un efecto electromagnético después de ser energizado, almacenando y expresando así 0101 información binaria. La ventaja de los discos duros de almacenamiento magnético es la rápida velocidad de entrada y lectura, pero la desventaja es la baja densidad de datos en comparación con el volumen y el peso. Después de 60 años de desarrollo, un disco duro de 3,5 pulgadas puede almacenar aproximadamente 3 TB de datos.
El principio del almacenamiento óptico es grabar almacenamiento de audio y vídeo codificado digitalmente en ranuras en la superficie de un disco y luego utilizar láseres para leer los datos de estas ranuras para transferirlos o reproducirlos. Actualmente, el almacenamiento óptico también encuentra limitaciones de almacenamiento. Para almacenar más datos, las ranuras deben ser más pequeñas y compactas, lo que requiere una mayor precisión del láser. Actualmente, los discos Blu-ray de una sola capa son capaces de almacenar más de 25 GB de información, mientras que otro láser UV, si se desarrolla con éxito, podría permitir que los discos almacenen hasta 500 GB.
¿Cuáles son las ventajas del almacenamiento de ADN frente al almacenamiento magnético y al almacenamiento óptico?
La primera es ahorrar espacio. Sin embargo, estos métodos de almacenamiento en mosaico de una sola capa son muchos órdenes de magnitud más grandes que la estructura tridimensional de doble hélice del ADN. El tamaño físico del ADN es muy pequeño y es una estructura tridimensional, por lo que la densidad de datos. por unidad de espacio es muy alto. Por ejemplo, 1 gramo de ADN no es más grande que una gota de rocío en la yema del dedo, pero puede almacenar 700 TB de datos, lo que equivale a 14.000 discos Blu-ray de 50 GB o 233 discos duros de 3 TB (que pesan casi 151 kilogramos).
Además, es muy eficiente energéticamente. Los métodos de almacenamiento existentes, como los centros de datos, consumen grandes cantidades de silicio monocristalino y electricidad. Por el contrario, los materiales de ADN sólo necesitan almacenarse en un lugar fresco y seco y prácticamente no requieren mantenimiento manual adicional. Incluso si fuera necesario congelar el ADN, los recursos y la energía consumidos son casi insignificantes.
Además, el punto más importante es que el tiempo de almacenamiento es muy largo. El almacenamiento de alta densidad actual se degrada con el tiempo. El dispositivo de almacenamiento más duradero es la cinta magnética, que tiene una vida útil de sólo 50 años. Otros dispositivos de almacenamiento tienen una vida útil aún más corta. El ADN tiene una vida útil de hasta cien años y, si se congela, puede almacenarse durante miles o incluso decenas de miles de años.
La civilización humana parece tener un plan de rescate, pero ¿cómo se almacena el ADN?
Como todos sabemos, el ADN está compuesto por cuatro pares complementarios de bases nitrogenadas A, T, C y G. Los científicos las llaman adenina (A), guanina (G), citosina (C) y timina (T) Asigne valores binarios (A y C = 0, G y T = 1) y luego sintetice la secuencia del gen a través del chip de microfluidos. Durante la síntesis, las posiciones de las secuencias se relacionan con conjuntos de datos relevantes. Al codificar estos pares de bases como combinaciones de unos y ceros, la información de la secuencia de ADN se puede utilizar para expresar lenguaje binario.
Una vez escrito el lenguaje binario en la secuencia de ADN, el "disco duro de ADN" se puede almacenar en un entorno criogénico. Cuando llega el momento de leer los datos, todo lo que tiene que hacer es secuenciar el ADN objetivo, reducir los pares de bases a código binario y luego decodificar los datos nuevamente en los datos que usamos comúnmente.
El principio es muy sencillo, pero ¿cómo lo hacen los científicos? Esto requiere una breve mirada a la historia de la tecnología de almacenamiento de ADN.
La primera persona a la que se le ocurrió esta idea fue el artista Joe Davis. En 1988, colaboró con investigadores de la Universidad de Harvard para convertir una fotografía matricial de 7×5 píxeles llamada "Microvenus" en una secuencia de ADN de 35 bases y la insertó en E. coli, escribiendo la primera información que no pertenece a la evolución natural. del ADN.
(Microvenus representa a la mujer y la tierra)
En 2010, el biólogo sintético estadounidense Craig Venter escribió por primera vez que la E. coli no evoluciona de forma natural la secuencia de ADN. Craig Venter dirigió un equipo de investigación para sintetizar químicamente todo el ADN genómico de Mycoplasma y lo llamó "Synthia". También "se divirtió" escribiendo los nombres de los investigadores, institutos y sujetos de investigación. En el ADN recién sintetizado se codificaron de forma "divertida" el nombre del investigador, la página web del instituto y un poema del poeta irlandés James.
En 2011, un equipo liderado por los biólogos sintéticos George Church de la Universidad de Harvard y Sriram Kosuri de la Universidad de California y expertos en Genómica de la Universidad Johns Hopkins trabajaron juntos para desarrollar este nuevo ADN. El experto en genoma Gao Yuan de la Universidad Hopkins llevó a cabo el primer experimento de prueba de concepto. El equipo utilizó fragmentos cortos de ADN para codificar 659 KB de datos de uno de los libros de Church.
En 2013, Nick Goldman del Instituto Europeo de Bioinformática (EBI) demostró este resultado. Nick Goldman y su equipo de investigación también codificaron con éxito datos de un libro que incluía los sonetos de Shakespeare y la poesía de Martín Lutero. "Tengo un sueño" de Martin Luther King. Nick Goldman de EBI y su equipo de investigadores también lograron escribir cinco documentos en fragmentos de ADN, incluidos los sonetos de Shakespeare y la conferencia "Tengo un sueño" de Martin Luther King, junto con una copia del artículo de Watson y Crick sobre la doble hélice del ADN. Los 739 KB de datos lo convirtieron en el archivo de almacenamiento de ADN más grande hasta el momento.
En 2016, Microsoft y la Universidad de Washington utilizaron la tecnología de almacenamiento de ADN para almacenar aproximadamente 200 MB de datos, lo que se convirtió en un gran avance en la tecnología de almacenamiento de información de ADN.
En julio de 2017, la revista "Nature" publicó un artículo de Seth K. Shipman de la Facultad de Medicina de Harvard. Seth Shipman y George Church colaboraron en un estudio sobre el almacenamiento de ADN vivo. Colocaron una película en blanco y negro de 130 años de antigüedad llamada "El caballo al galope" en el ADN de E. coli. Aunque E. coli tiene un "ADN extraño" que le permite no sólo sobrevivir sino también heredar, cada reproducción es una copia de los datos. Y la película, almacenada en el genoma, permanece intacta en cada generación de E. coli.
Sin embargo, debido a la replicación, división y muerte de las células, habrá riesgo de errores de información. Para la seguridad de los datos en el futuro, la mayor parte del tiempo el ADN utilizado para almacenar información existe en forma de ADN. polvo seco Investigación sobre el almacenamiento de células vivas Se trasladó al almacenamiento de ADN sintético.
Ese mismo año, la Universidad de Columbia y el Centro del Genoma de Nueva York publicaron un algoritmo llamado "DNA Fountain" en la revista Science, que es una estrategia eficiente de almacenamiento de ADN. Esta tecnología maximiza el potencial de almacenamiento del ADN y comprime con éxito información masiva en 4 bases de ADN. Cada ADN codifica 1,6 bits de datos, que es un 60% más de información que antes y está cerca del límite teórico (1,8 bits). Este método puede almacenar 215 petabytes de datos en un gramo de ADN, lo que equivale a 220 millones de películas.
En 2018, investigadores del Instituto Tecnológico de Waterford (WIT) de Irlanda desarrollaron un nuevo método de almacenamiento de ADN que puede almacenar 1 ZB de datos en 1 g de ADN de E. coli.
En 2019, el equipo de Church publicó los resultados de otro experimento en la revista Science. Codificaron una copia del libro de Church, de aproximadamente 53.400 palabras, Regeneración: cómo la biología sintética transforma la naturaleza y nuestro propio futuro, junto con 11 imágenes y un programa Java, que estaba codificado en menos de mil millones de puntos. luego leyó con éxito el libro utilizando la secuenciación de ADN.
El rápido desarrollo de la investigación científica también significa la madurez de las tecnologías de síntesis de ADN (escritura de datos) y secuenciación de ADN (lectura de datos). Pero al mismo tiempo, el proceso de codificación del ADN todavía tiene problemas en términos de velocidad de almacenamiento/lectura y costo, y el almacenamiento de ADN aún está muy lejos de su comercialización.
En el laboratorio, el almacenamiento de ADN no parece complicado, pero la comercialización todavía enfrenta algunos problemas.
En primer lugar, las velocidades de almacenamiento y lectura son lentas. El acceso a los dispositivos de almacenamiento de ADN es lento y requiere mucho tiempo. A diferencia de las señales electromagnéticas almacenadas en discos magnéticos, la síntesis de ADN se basa en una serie de reacciones químicas. Escribir 200 MB de datos en el disco lleva 1 segundo, mientras que la síntesis con ADN tarda casi 3 semanas.
En segundo lugar, los medios de ADN no se pueden sobrescribir ni reescribir. En el ADN, una vez que se almacena la información, generalmente no se puede modificar. Para leer el archivo, es necesario ordenar completamente toda la información y luego transcodificarla.
En tercer lugar, es necesario mejorar la precisión del almacenamiento de datos. Actualmente, las lecturas repetidas en el proceso de secuenciación del ADN conllevan una alta probabilidad de lectura errónea.
En cuarto lugar, la dislexia aleatoria. La tecnología actual de síntesis de ADN no puede sintetizar moléculas de ADN más largas a la vez, sino que solo puede sintetizar una gran cantidad de fragmentos cortos. Esto dificulta la recuperación rápida de datos específicos de una mezcla de pequeños fragmentos de ADN.
Por último, y lo más importante, el ADN es demasiado caro de almacenar. Por ejemplo, el ADN cuesta actualmente 800.000 dólares para almacenar 200 MB de datos, mientras que la electrónica cuesta menos de 1 dólar.
Pero como se mencionó anteriormente, si se coloca en una escala de tiempo más larga y bajo la presión del espacio de almacenamiento de datos, las ventajas únicas del ADN de alta densidad de almacenamiento, alto ahorro de energía y protección ambiental, y estabilidad ultralarga se convertirán aparente. Mientras mejore la eficiencia de la codificación y secuenciación del ADN y el costo disminuya significativamente con el desarrollo de la tecnología de almacenamiento y lectura, el almacenamiento de ADN no está lejos de su aplicación comercial.
Entonces, ¿cuál es el avance actual de la comercialización?
En 2015, Microsoft y la Universidad de Washington colaboraron para publicar un resultado utilizando información de lectura direccional, es decir, añadiendo algunas etiquetas de seguimiento a largas cadenas de ADN. Estos marcadores actúan como un mecanismo de indexación, seleccionando el marcador correcto para leer sin tener que esperar a que se secuencia toda la larga cadena de ADN cada vez.
En 2018, la tecnología de lectura logró otro avance. Microsoft desarrolló una tecnología de lectura de "nanoporos", que puede comprimir una columna media de ADN a través de un nanoporo muy pequeño y leer cada base de ADN. Esta tecnología reduce en gran medida el costo de espacio de los dispositivos de lectura. Un dispositivo USB del tamaño de la palma de la mano puede leer, pero la velocidad de varios kilobytes por segundo sigue siendo bastante lenta.
En marzo de 2019, el equipo de Microsoft publicó un nuevo desarrollo en la revista "Nature". Desarrollaron el primer medio de almacenamiento automático de ADN del mundo.
En comparación con la síntesis y secuenciación manual de ADN, poder codificar y decodificar ADN de forma automatizada es la dirección del desarrollo comercial.
Catalog, una startup estadounidense fundada en 2016, también está trabajando arduamente para resolver los problemas de duración y costo del almacenamiento y la lectura del ADN.
El año pasado, el Catálogo almacenó **** 16G de texto en inglés de Wikipedia sobre la molécula de ADN. Utilizaron un escritor de ADN para registrar estos datos en ADN a 4 Mbps. Eso significa que se pueden registrar 125 GB de datos en un día, que es aproximadamente la misma cantidad de almacenamiento que un teléfono de gama alta. Esta velocidad ya es tres veces más rápida que las velocidades de almacenamiento estudiadas anteriormente.
Actualmente, Catalog utiliza cadenas de ADN sintético prefabricadas de 20 a 30 pares de bases de longitud, anidadas entre sí mediante enzimas para almacenar más datos. Las piezas están dispuestas como las 26 letras utilizadas en el idioma inglés, creando teóricamente innumerables combinaciones. Catalog estima que DNA costará menos de 0,001 centavos para almacenar 1 MB de datos en el futuro.
Por supuesto, si esta startup puede reducir significativamente los costos en el futuro, tiene el potencial de allanar el camino para la comercialización del almacenamiento de datos de ADN.
En 2019, la tecnología de almacenamiento de datos de ADN estuvo entre las diez principales tecnologías emergentes del mundo publicadas conjuntamente por Scientific American y el Foro Económico Mundial.
Es previsible que los métodos de almacenamiento magnético y óptico sigan dominando los métodos de almacenamiento de datos durante algún tiempo. Sin embargo, incluso si no vemos el fin del mundo, la humanidad se enfrenta a un grave problema de espacio insuficiente para el almacenamiento de datos debido a la explosión de datos en los últimos años. Al mismo tiempo, el aumento de la demanda de almacenamiento de datos también ha provocado un aumento en el uso de obleas de silicio y los problemas resultantes, como la contaminación ambiental, los recursos hídricos y el consumo de energía.
La implementación de la tecnología de almacenamiento de ADN aliviará hasta cierto punto el problema de capacidad del almacenamiento tradicional y reducirá en gran medida el consumo de componentes electrónicos y energía.