Red de conocimiento informático - Problemas con los teléfonos móviles - Esas cosas sobre el aumento

Esas cosas sobre el aumento

Cuando vi por primera vez la palabra aumento, primero pensé en las dos preguntas siguientes:

¿Qué es el aumento?

?El llamado pico es un control de calidad con picos adecuado para todas las aplicaciones. Contiene múltiples secuencias de ADN diferentes. Estas secuencias no provienen de su organismo objetivo, pero su contenido de GC es consistente con su objetivo. Los organismos tienen el mismo contenido de GC. Para plataformas de secuenciación de alto rendimiento, la longitud del fragmento de ADN incorporado también debe ser aproximadamente la misma que la del fragmento de ADN antes de la construcción de la biblioteca. Por ejemplo, la mezcla de control de ARN externo (ERCC) se utiliza para el análisis de RNA-seq y el epigenoma de Drosophila se incorpora al análisis ChIP-seq de H3K79me2 en células humanas.

?¿Qué puede hacer el pico de entrada?

Normalmente los análisis mediante microarrays o plataformas de secuenciación NGS para comparar cambios entre dos o más condiciones experimentales se basan en el supuesto de que la muestra a analizar (ya sea ADN o ARN) cambia bajo diferentes condiciones experimentales. El rendimiento por celda es el mismo. Por lo tanto, los investigadores normalmente toman la misma cantidad de ARN o ADN total para analizar en su matriz o plataforma de secuenciación NGS y normalizan los datos resultantes entre sí para que la cantidad total de señal de cada condición experimental (por ejemplo, por millón de lecturas [RPM] la normalización de secuenciación y la normalización de cuantiles de matriz) siguen siendo las mismas para lograr propósitos comparables. Sin embargo, esta suposición es errónea cuando células de diferentes condiciones experimentales no logran producir la misma cantidad de ADN o ARN. Para interpretar con precisión si la señal en cada región del genoma aumenta o disminuye entre muestras, se debe incorporar una cierta proporción de aumento en cada muestra como control para la normalización de datos posterior. La explicación del texto puede no ser tan intuitiva, veamos un diagrama esquemático:

(a) Cuando ocurre el mismo grado de cambio en todas partes del genoma, normalizar las lecturas totales de secuenciación al mismo número ocultará la cambio, la normalización de picos de lectura al mismo número revelará cambios globales en la densidad de lectura.

(b) Cuando se produce un aumento de la señal en una región genómica específica, la normalización de las lecturas de secuenciación totales entre muestras puede conducir a una reducción artificial en el número de lecturas de otras regiones del genoma, lo que puede ser interpretado incorrectamente como una disminución en condiciones experimentales específicas. Al utilizar lecturas de aumento como normalización, se puede evitar este cambio artificial.

(c) La diferencia en el número de copias del ADN metilado se puede analizar con precisión mediante la normalización de aumento, y la proporción de metilación en la muestra también se puede analizar correctamente sin la normalización de aumento.

?La siguiente imagen muestra la comparación de señales antes y después de usar el pico como normalización. Las dos imágenes a y b son los diagramas de seguimiento de señales del genoma, que muestran la distribución de señales de nucleosomas determinada en células jóvenes y viejas obtenidas por MNase-seq. La imagen a muestra que la entrada no se usa para la normalización. Se puede ver que no hay diferencia en la distribución de las señales de los nucleosomas en células jóvenes y viejas, mientras que la señal de los nucleosomas en las células viejas se normaliza usando la entrada (imagen). b). Sólo la mitad de ser joven. c, d (pico normalizado) muestran los múltiples cambios en la expresión genética determinados por RNA-seq en células jóvenes y viejas. Como se puede ver aquí, el efecto del aumento en la normalización de los cambios globales entre condiciones experimentales es obvio.

?En un escenario simple, por ejemplo, cuando existe una correlación lineal entre los recuentos de lectura y las concentraciones de las muestras, la normalización se puede realizar basándose en una escala lineal global. Al comparar el número de lecturas de aumento en el grupo de control con el número de lecturas en el grupo experimental, se puede generar una función estandarizada para el grupo experimental. Por ejemplo, las lecturas estandarizadas del grupo experimental se pueden corregir mediante una proporción. , es decir, n = 1,5 × r, n representa el número de lectura normalizado y r es el número de lectura sin procesar.

?En casos más complejos, es posible que se necesiten docenas de fragmentos con picos y algoritmos de normalización más complejos para corregir el sesgo de secuencia.

Por ejemplo, la correlación entre los recuentos de aumento y la concentración de la muestra puede parecer no lineal. En este momento, puede realizar una normalización cuantil en recuentos de picos de regiones individuales entre muestras y luego usar un modelo de regresión no lineal para simular la función de normalización para cada muestra. El diagrama esquemático estandarizado es el siguiente:

La aplicación del aumento parece tener efectos obvios, pero la tasa de popularidad actual no parece ser muy alta. Si es útil o no, se verá más adelante. No es difícil utilizar escenarios de aplicación simples, pero también me confunden situaciones complejas. Como es habitual, las referencias originales se proporcionan a continuación para comodidad de los estudiantes interesados. Esto termina el intercambio de hoy~~~