Red de conocimiento informático - Conocimiento informático - Notas biográficas de White (1): algunos conocimientos básicos sobre secuenciación de alto rendimiento

Notas biográficas de White (1): algunos conocimientos básicos sobre secuenciación de alto rendimiento

En 1977, el químico británico Frederick Sanger inventó el método de terminación de cadenas didesoxi. Esta tecnología, junto con el método de degradación química inventado por W. Gilbert, se denomina tecnología de secuenciación de primera generación. La secuenciación de Sanger utiliza ADN polimerasa para extender los cebadores unidos a una plantilla de la secuencia que se va a secuenciar. hasta que se añade el nucleótido que termina la cadena. Cada método de secuenciación consta de un conjunto de cuatro reacciones independientes, cada una de las cuales contiene los cuatro desoxinucleótidos trifosfato (dNTP) y una cantidad diferente de un didesoxinucleótido trifosfato (ddNTP). Debido a que el ddNTP carece del grupo 3-OH requerido para la extensión, permite que los oligonucleótidos extendidos terminen selectivamente en G, A, T o C. El punto de terminación está determinado por el didesoxígeno correspondiente en la reacción. Las concentraciones relativas de cada dNTP y ddNTP se pueden ajustar de modo que la reacción produzca un conjunto de productos de terminación de cadena de cientos a miles de bases de longitud. Tienen esencialmente el mismo punto de partida pero terminan en diferentes nucleótidos, pueden separarse en fragmentos de diferentes tamaños mediante electroforesis en gel desnaturalizante de alta resolución y pueden analizarse mediante autorradiografía o película de rayos X después del procesamiento del gel para su detección. .

A diferencia de la tecnología de secuenciación de próxima generación, NGS adopta una estrategia de síntesis por secuenciación. Las principales rutas técnicas incluyen la tecnología 454 de Roche, la tecnología Solexa de Illumina, la tecnología Hiseq y la tecnología Solid de ABI. Para mejorar la precisión de la secuenciación, los valores de sesgo deben corregirse mediante la amplificación por PCR de múltiples copias de la misma plantilla. Por tanto, todo el proceso de secuenciación se divide en dos pasos: amplificación por PCR (una técnica que copia rápidamente grandes cantidades de fragmentos de ADN idénticos) y secuenciación. Sin embargo, el proceso de PCR aumentará hasta cierto punto la tasa de error del sistema y los errores introducidos serán sesgados, lo que también es uno de los problemas de la tecnología de segunda generación.

Productos principales de Illumina: MiSeq Sequencer, HiSeq

La plataforma de secuenciación y el costo de secuenciación de la tecnología de secuenciación de segunda generación, los gastos de secuenciación, el consumo de tiempo, la dificultad técnica de la construcción de la biblioteca y otros experimentos, la tasa de error y la longitud de lectura (150-400 pb), la carga de trabajo de análisis, etc., son todos un obstáculo no pequeño para satisfacer la mayor demanda de investigación científica y popularización del diagnóstico médico. Los errores y sesgos introducidos por su proceso de PCR pueden convertirse en obstáculos para su aplicación a gran escala en el diagnóstico médico. La tecnología de tercera generación resuelve principalmente el problema de la longitud de medición corta de la tecnología de segunda generación.

La tecnología SMRT de PacBio, la tecnología de secuenciación de semiconductores IonTorrent de Life Technologies y la tecnología de secuenciación de moléculas únicas de nanoporos de Oxford Nanopore Technologies son representantes de la tercera generación de tecnologías de secuenciación.

PacBio SMR

SMRT de PacBio todavía utiliza una estrategia de secuencia por síntesis, pero su ADN polimerasa ultraactiva es clave para lograr longitudes de lectura ultralargas (aproximadamente 1000 pb). La reacción tiene lugar en nanotubos, lo que ayuda a lograr un rendimiento ultraalto. El principio ZMW (agujero de guía de onda en modo cero) se aprovecha para diferenciar el fondo de la señal de fluorescencia en nanoporos ultrapequeños. Su velocidad de secuenciación es rápida, alrededor de 10 dNTP por segundo. El problema actual es que la tasa de error de secuenciación es demasiado alta (81-83), que es también lo que la mayoría de las tecnologías de tercera generación necesitan resolver. Sin embargo, estos errores son aleatorios y casi no tienen sesgo, lo que brinda la posibilidad de reducir la tasa de error corrigiéndolos. Esta tecnología ya está en el mercado.

MinlON de Oxford Nanopore

El secuenciador MinlON de Oxford Nanopore aplica tecnología de molécula única de nanoporos, que es una tecnología de secuenciación basada en señales eléctricas que es compatible con otras ópticas. La tecnología de secuenciación de señales es revolucionaria en comparación. . En el corazón de la tecnología se encuentra un nanoporo especial con conexiones moleculares en su interior, formado a partir de poros de proteínas incrustados en una membrana sintética. La aplicación de voltaje a ambos lados de la membrana hace que la corriente fluya a través de los poros. Cuando diferentes bases de ADN pasan a través del nanoporo, su efecto de bloqueo sobre la corriente afectará temporalmente la intensidad de la corriente que fluye a través del nanoporo. Diferentes bases tienen diferentes grados de influencia. Los componentes electrónicos sensibles pueden capturar esta diferencia para identificar el tipo de base que pasa. . Las ventajas de esta técnica son muchas, con longitudes de lectura largas (decenas de KB, incluso 100 KB), errores aleatorios en lugar de agrupados al final de las lecturas, mayor rendimiento y los esfuerzos de la empresa por simplificar el proceso de preparación de muestras. En teoría, también sería posible secuenciar el ARN directamente mediante esta técnica y detectar citosinas metiladas. Sin embargo, la incapacidad de lograr un control ideal de la tasa de error puede ser una barrera para la entrada de la tecnología al mercado.

LifeTechnologies IonTorrent

IonTorrent utiliza un chip semiconductor para inmovilizar hebras de ADN en micropocillos del chip. Durante la síntesis de ADN, si una base puede unirse a la cadena plantilla, se liberan iones de hidrógeno. Este ion hidrógeno provoca un cambio en el pH local. Los sensores de iones detectan cambios en el pH y convierten señales químicas en información de secuencia. Si hay dos bases idénticas consecutivas en una cadena de ADN, la señal registrada se duplica y se reconoce la cadena de ADN. Si hay una discrepancia, no se registrarán cambios. Debido a que esta técnica no implica excitación por fluorescencia ni fotografía, el tiempo de ejecución se reduce considerablemente (sólo unas pocas horas) y no se requiere ninguna fuente de luz láser, sistema óptico o sistema de fotografía, y no se requiere etiquetado fluorescente, evitando así los errores asociados. con estos pasos. Sin embargo, la longitud de lectura no es larga (200 pb) y los cambios fuertes de pH pueden introducir errores al encontrar múltiples bases idénticas consecutivas.

La secuenciación de novo también se denomina secuenciación de novo: secuencia una especie sin ninguna información de secuencia existente y utiliza análisis bioinformático para empalmar y ensamblar las secuencias para obtener el genoma de la especie.

La secuenciación del exoma es un método de análisis del genoma que utiliza tecnología de captura de secuencias para capturar y enriquecer el ADN de regiones exónicas del genoma para una secuenciación de alto rendimiento. La secuenciación del exoma es más barata que la resecuenciación del genoma y tiene más ventajas a la hora de estudiar SNP e indeles en genes conocidos, pero no puede estudiar variaciones estructurales genómicas como las roturas y recombinaciones cromosómicas.

La genómica estudia toda la comunidad microbiana. En comparación con la investigación bacteriana tradicional, tiene muchas ventajas, dos de las cuales son muy importantes: (1) Los microorganismos generalmente nacen en el nicho de la comunidad y muchas de sus características se basan en todo el entorno y los individuos de la comunidad. La investigación metagenómica puede descubrir sus características mejor que la investigación individual (2) La investigación metagenómica no requiere el aislamiento de bacterias individuales y puede estudiar microorganismos que no se pueden aislar y cultivar en el laboratorio.

El polimorfismo de un solo nucleótido (Single-nucleótido polimorfismo, SNP) o variación de sitio de un solo nucleótido (SNV) se refiere a un polimorfismo individual causado por una variación de un solo nucleótido (sustitución, inserción o deleción) en el misma posición en la secuencia del ADN genómico. Fenómeno en el que un único nucleótido en la misma posición en una secuencia de ADN genómico difiere entre especies e individuos. Los patrones y secuencias de ADN con tales diferencias pueden usarse como marcadores para el mapeo del genoma. En el genoma humano, puede haber un promedio de 1 polimorfismo de un solo nucleótido por cada 1000 nucleótidos, algunos de los cuales pueden estar asociados con enfermedades, pero la mayoría no.

Los polimorfismos de un solo nucleótido son una base importante para estudiar la variación genética en familias humanas y cepas de animales y plantas. En el estudio de la variación del genoma del cáncer, la variación de un solo nucleótido exclusiva del cáncer en relación con el tejido normal es una mutación somática, llamada SNV.

Las inserciones o eliminaciones de pequeños fragmentos (50 pb) en el genoma se denominan SNP/SNV.

Cuando un segmento se elimina en el genoma o se empalma en el transcriptoma, durante el proceso de secuenciación, las lecturas que abarcan el sitio eliminado y las lecturas que abarcan el sitio de empalme se pegan nuevamente en el genoma, y ​​el La lectura única se corta en dos segmentos y se combina con diferentes regiones; dichas lecturas se denominan lecturas de empalme suave y son importantes para identificar variaciones estructurales cromosómicas y la integración de secuencias extrañas.

Debido a que la mayoría de las lecturas obtenidas mediante secuenciación son cortas, una sola lectura puede coincidir con múltiples ubicaciones en el genoma, lo que hace imposible distinguir su verdadera ubicación de origen. Algunas herramientas asignarán estas lecturas a áreas con más lecturas basándose en modelos estadísticos, etc.

El software de empalme se basa en las regiones superpuestas entre lecturas, y la secuencia resultante se denomina contig (grupo de superposición).

Cuando se secuencia el genoma de novo, después de obtener el Contig mediante empalme de lectura, a menudo es necesario construir una biblioteca de 454 pares o una biblioteca de pares Illumina Mate para obtener extremos de fragmentos de un tamaño determinado (como 3 Kb , 6 Kb, 10 Kb, 20 Kb) secuencia. Con base en estas secuencias, se puede determinar la relación de secuencia entre algunos Contigs, y estos Contigs con un orden de secuencia conocido forman un andamio.

Empalme las lecturas para obtener Contigs de diferentes longitudes. Sume las longitudes de todos los Contigs para obtener la longitud total del Contig. Luego ordene todos los Contigs de mayor a menor, por ejemplo, obtendrá Contig 1, Contig 2, Contig 3... ...Contig25. Agregue Contigs en este orden, cuando la longitud agregada alcance la mitad de la longitud total del Contig, la longitud del último Contig agregado es Contig N50: Contig 1 Contig 2 Contig 3 Contig 4=Contig Ejemplo: Contig 1 Contig 2 Contig 3= Contig 25Contig 1 Contig 2 Contig 3 Contig 4 = Longitud total de Contig*1/2 La longitud de Contig 4 es Contig N50, que se puede utilizar como estándar para juzgar la calidad de los resultados del empalme del genoma.

La definición de Scaffold N50 es similar a la de Contig N50. Es el número de Scaffolds de diferentes longitudes obtenidos al empalmar y ensamblar Contigs. La longitud total de Scaffolds se puede obtener sumando las longitudes de todos. Andamios. Luego ordene todos los andamios del más largo al más corto, por ejemplo, obtendrá el andamio 1, el andamio 2, el andamio 3... ...el andamio 25. Los andamios se agregan en este orden, y cuando la longitud agregada alcanza la mitad de la longitud total del andamio, la longitud del último andamio agregado es el Andamio N50. Ejemplo: Andamio 1 Ejemplo Andamio 1 Andamio 2 Andamio 3 Andamio 4 Andamio 5 = longitud total del andamio * 1/2, la longitud del andamio 5 es el andamio N50, que se puede utilizar como estándar para juzgar los resultados del empalme del genoma.

La profundidad de secuenciación se refiere a la relación entre el número total de bases obtenidas mediante la secuenciación y el tamaño del genoma a probar. Suponiendo un tamaño de gen de 2 millones y una profundidad de secuenciación de 10x, la cantidad total de datos obtenidos es de 20 millones. La cobertura es la proporción de secuencias obtenidas mediante la secuenciación con respecto al genoma completo.

Debido a la presencia de estructuras complejas como GC alto y secuencias repetitivas en el genoma, las secuencias finalmente empalmadas y ensambladas mediante secuenciación a menudo no pueden cubrir ciertas áreas. Esta área no obtenida se denomina brecha. Por ejemplo, si se secuencia un genoma bacteriano con una cobertura de 98, todavía hay 2 regiones de secuencia que no fueron secuenciadas.

Reúna transcripciones a partir de datos de secuenciación. Hay dos métodos de ensamblaje: 1. Construcción desnovedosa; 2. Reconstrucción con genoma de referencia. El ensamblaje de novo se refiere a concatenar lecturas superpuestas en una secuencia más larga sin depender de un genoma de referencia, y luego unirlas en contigs y andamios después de una extensión continua. Las herramientas más utilizadas incluyen Velvet, Trans-ABYSS, Trinity, etc.

La Genómica Comparada es una disciplina basada en mapas del genoma. La Genómica Comparada es una disciplina basada en mapas del genoma y secuenciación que comprende las funciones de los genes y los mecanismos de expresión comparando genes y estructuras del genoma conocidos. Utilizando la secuencia codificante y la homología estructural entre los genomas de organismos modelo y los genomas humanos, se pueden clonar genes de enfermedades humanas, se pueden revelar las funciones de los genes y los mecanismos moleculares de las enfermedades, y se puede aclarar la relación entre la evolución de las especies y la estructura intrínseca del genoma. p>

Q30 indica que la confiabilidad de las llamadas base es igual a 99,9, o la probabilidad de error es 0,1, mientras que la confiabilidad de las llamadas base de los datos Q20 es igual a 99. El volumen de datos Q30 se refiere a la cantidad total de datos en un lote de datos con una calidad superior o igual a Q30.

PF es la abreviatura de filtro de paso. La secuenciación de Illumina puntúa automáticamente la confiabilidad de la calidad de las lecturas (secuencias). PF se basa en si dos de las primeras 25 bases se identifican con una confiabilidad inferior a 0,6. En términos más comprensibles, esto significa que si hay 2 o más datos de baja calidad en las primeras 25 bases, la lectura se considera no calificada y el PF no está calificado. En cambio, pasa el control de calidad.

PF es un estándar de control de calidad reconocido internacionalmente. Para la resecuenciación del genoma y la secuenciación del exoma de mamíferos, nos aseguramos de que la calidad de los datos Q30 sea superior a 80. Para la secuenciación de ARNm y la secuenciación de ARNm, nos aseguramos de que la calidad de los datos del carril de control sea superior a 80 de Q30.

En términos generales:

Para la resecuenciación del genoma y la secuenciación del exoma de mamíferos, la proporción de GC es de alrededor de 40 y la proporción de Q30 está entre 80 y 95. En la secuenciación de RNA-seq, la proporción de GC es de alrededor de 50 y la proporción de Q30 está entre ~80. Si hay demasiados Poly(A), el Q30 será menor;

SmRNA-seq, debido a que hay muchas lecturas después de la lectura completa y solo queda una cadena de A, la calidad disminuirá. ser inferior. El resultado Q30 de nuestro experimento es 70 ~75.

Los secuenciadores de Illumina proporcionan un alto rendimiento de datos y la más alta calidad de datos. Debido a que utiliza dNTP fluorescentes con grupos de terminación, no hay malas interpretaciones de los cambios al medir cosas como homopolímeros (homopolímeros de bases, como una cadena de 4 T: TTTT).

Roche 454 utiliza el principio de pirosecuenciación. El pirofosfato producido cuando se hidroliza el complejo integral de ADN emite luz y la secuencia se lee midiendo la luz. La ventaja es que la longitud de lectura es la más larga. Pero el rendimiento de datos es el más bajo.

Ion Torrent (incluidos PGM y Proton) obtiene secuencias midiendo los cambios de pH provocados por los iones de hidrógeno liberados durante la síntesis de ADN. La ventaja es que es el más rápido, tardando unos 3 a 4 días antes del embarque y sólo 2 a 4 horas después del embarque.

SOLID utiliza reacciones de hibridación, ligadura y luego mediciones de fluorescencia. Debido a que se utiliza la hibridación, es más lenta y da como resultado tiempos de medición más cortos. Está casi obsoleto ahora.

PacBio es secuenciación triplex, es decir, secuenciación de una sola molécula.

La situación actual es que se pueden lograr longitudes de secuenciación de más de 1 KB y se pueden medir modificaciones en la secuencia de ADN. Pero su desventaja es que la precisión de la secuenciación es muy baja. La precisión de la secuenciación actual de cada base es de solo 80 ~ 90.

Algunas referencias: