Varios problemas en la construcción y secuenciación de bibliotecas (1)
La estructura de la biblioteca se puede dividir en las siguientes partes: fragmento de inserción, puntos de unión P5, P7, sitios de unión del cebador de secuenciación e índice.
Los puntos de conexión P5 y P7 están ubicados en ambos extremos de la biblioteca y se pueden combinar con oligonucleótidos en células de flujo. Se pueden usar como cebadores o para fijar la cadena plantilla durante la generación y secuenciación del grupo.
?
? El "índice" es la base para distinguir diferentes muestras. Cuando se mezclan varias muestras en el mismo carril para la secuenciación, las lecturas de diferentes muestras se pueden distinguir según el índice y según las diferentes estructuras de los adaptadores utilizados en la construcción de la biblioteca. se pueden dividir en bibliotecas de índice único y bibliotecas de índice doble. A medida que el rendimiento de la secuenciación continúa aumentando, cada carril puede acomodar más y más muestras. La indexación doble puede cambiar más combinaciones y reducir la proporción de diafonía de etiquetas. Por lo tanto, algunos ensayos que requieren una mayor sensibilidad generalmente construyen una biblioteca de índice dual [1].
Las partes amarilla y azul de la figura son los sitios de unión del cebador de secuenciación: index5 tiene diferentes direcciones de secuenciación en las plataformas NovaSeq 6000 y HiSeq X. Después de completar la secuenciación de Read1 e index7, la plataforma NovaSeq 6000 continuará secuenciando el índice5 usando esta cadena como plantilla, y el cebador de secuenciación es el nodo P5 en el citómetro de flujo, por lo que la dirección de secuenciación de index5 es la misma que la secuenciación. dirección de Read1 y index7 mismo. Por otro lado, la secuenciación de index5 y Read2 en la plataforma HiSeq X se realiza después del cambio final, por lo que index5 se secuencia en la misma dirección que Read2 y en la dirección opuesta a Read1 e index7. En las plataformas HiSeq X y NovaSeq® 6000, las secuencias del mismo índice5 son complementarias inversas, así que asegúrese de prestar atención a la plataforma de secuenciación y a la secuencia al completar la información de la biblioteca. Por lo tanto, al completar la información de la biblioteca, asegúrese de prestar atención a la correspondencia entre la plataforma de secuenciación y la secuencia.
Al recopilar señales, el secuenciador de Illumina no toma una fotografía en color, sino cuatro fotografías monocromáticas de las cuatro longitudes de onda A, C, G y T, y luego procesa estas cuatro mediante un software. uno. Esta es una medida provisional para reducir el tamaño del archivo de imagen y, por lo tanto, los requisitos de almacenamiento de datos. Pero esto también tiene desventajas, cuando la intensidad de la señal de una o varias fotos no es suficiente, o no hay señal, la superposición de las imágenes no se puede completar con precisión. Las bibliotecas con desequilibrio de bases (es decir, las bases A, G, C y T están separadas por 25 bases) pueden provocar que algunas imágenes (longitudes de onda) tengan una señal débil o nula durante la secuenciación, lo que reduce la precisión de la llamada de bases. Las bibliotecas de desequilibrio de bases comunes incluyen bibliotecas de metilación de BS, bibliotecas de transcriptomas unicelulares, bibliotecas de productos de PCR, etc. Para minimizar el impacto del desequilibrio de bases en los resultados de la secuenciación, generalmente se mezcla una cierta proporción de bibliotecas de phix.
La biblioteca Phix es una biblioteca de calibración y un reactivo de Illumina. Se deriva del ADN genómico viral. Su secuencia genética se conoce con precisión. La proporción de GC es cercana a la de humanos y mamíferos. genomas. relación GC. Esta secuencia está lejos de la secuencia del genoma humano y no contiene un índice. Cuando se secuencia con el genoma de mamíferos, el índice se puede eliminar mediante la alineación de la secuencia genética o la división de datos. Al secuenciar muestras de bibliotecas con desequilibrio de bases, se puede agregar una gran cantidad de bibliotecas phix para compensar parcialmente el desequilibrio de la muestra. También se puede agregar una pequeña cantidad de biblioteca phix como biblioteca de control para verificar la calidad de la secuenciación.
¿Cuántas bibliotecas puede albergar el Index? Tomando el índice de base 8 como ejemplo, la biblioteca de índices de un solo extremo puede tener teóricamente 4 ^ 8 = 65536 índices, y la biblioteca de índices de extremos emparejados puede tener teóricamente 65536 ^ 2 = 4294967296 índices.
Sin embargo, en el proceso de agregación real, para evitar una mala interpretación del índice debido a un enfoque incorrecto que resulte en la imposibilidad de dividir los datos, se debe utilizar un índice con una distribución base uniforme.
Método de control de calidad de la biblioteca: utilice el sistema de análisis de biochip Aglient 2100 o LabChip GX Touch para detectar el tamaño de los fragmentos de la biblioteca antes de ejecutarlos en la máquina, utilice el sistema de PCR en tiempo real StepOnePlusTM para la cuantificación de QPCR y utilice P5 y P7 como cebadores (los más precisos). Debido a que la biblioteca Illumina se somete a una PCR puente utilizando cebadores de ligación P5 y P7 para generar grupos en células de flujo antes de que comience la secuenciación, este resultado de cuantificación en placa es más preciso.
Principios del pool de bibliotecas: 1) Eliminar lecturas de baja calidad: Si el número de bases con un valor de calidad Q ≤ 19 representa más del 50 del número total de bases leídas, la lectura será descartado para la secuenciación de extremos emparejados, si un extremo es una lectura de baja calidad, descarte las lecturas de ambos extremos. 2) Elimine las lecturas contaminadas con el adaptador: si el número de bases contaminadas con el adaptador es superior a 5 pb, deseche las. leer; 3) Eliminar el número de bases contaminadas con el adaptador P5. En la secuenciación de extremos pares, si un extremo está contaminado por un adaptador, las lecturas en ambos extremos se descartarán. 3) Eliminar las lecturas que contienen N: si la proporción de bases que contienen N en la lectura es mayor que 5, la lectura; se descartará en la secuenciación de doble extremo. En la secuenciación de un extremo a otro, si la proporción de bases que contienen N en las lecturas es mayor que 5, las lecturas en ambos extremos se descartarán. "
La duplicación significa que las posiciones inicial y final de los fragmentos son exactamente las mismas. La razón principal de la duplicación es que hay un proceso de PCR durante el proceso de secuenciación. Los productos de PCR derivados del mismo fragmento de ADN son secuenciado repetidamente, lo que resulta en duplicación. La razón secundaria es que las posiciones de la cabeza y la cola de los dos fragmentos insertados son exactamente las mismas. Las razones de este fenómeno pueden ser las siguientes: a. los propios fragmentos son bajos, la cantidad de datos medidos es grande y la gran cantidad de datos medidos es grande y hay muchas repeticiones durante el proceso de construcción de la biblioteca, el punto de partida de la biblioteca es bajo y la diversidad de fragmentos es alta. bajo en las mismas condiciones de PCR, la cantidad total de la biblioteca en los datos posteriores será baja y la tasa de repetición será alta. c. Hay dos formas principales de calcular la tasa de repetición: una es calcular la tasa de repetición durante el control de calidad de los datos; la otra es usar la secuencia de lectura para calcular la tasa de repetición, que requiere lectura. La secuencia es la misma que la secuencia de lectura utilizada. calcular la tasa de repetición Hay dos métodos principales para calcular la tasa de repetición: uno es calcular la tasa de repetición durante el control de calidad de los datos y utilizar la secuencia de lectura para calcular la tasa de repetición. El número de lecturas repetidas se divide por el número total de lecturas para calcular la tasa de repetición; el otro es calcular la tasa de repetición al analizar las lecturas y calcular la tasa de repetición en función de la posición del genoma en las lecturas. La misma posición de lectura se cuenta como una repetición y la tolerancia al error es generalmente de 2 pb.
Referencia
[1] Macconaill L E, Burns R T, NagA, et al. Los adaptadores de secuenciación de doble índice con UMI eliminan eficazmente la interferencia de índices y mejoran significativamente la sensibilidad de la espectrometría de masas Bmc Genomics, 2018, 19 (1):30.