Red de conocimiento informático - Problemas con los teléfonos móviles - Diferencias entre recuento de lecturas, CPM, RPKM, FPKM y TPM

Diferencias entre recuento de lecturas, CPM, RPKM, FPKM y TPM

Además de los dos factores principales mencionados anteriormente, existen otros factores que pueden afectar la detección de lecturas, como la composición del transcriptoma, el contenido de GC, el sesgo de secuenciación causado por hexámeros aleatorios, etc. Los factores anteriores hacen que no sea práctico comparar lecturas entre diferentes muestras. Debido a estos factores, no es práctico comparar lecturas entre diferentes muestras, por lo que se han propuesto muchos métodos para normalizar las lecturas.

Lecturas

Concepto numérico: Lecturas comparadas con genes.

Propósito: Para convertir CPM, RPKM, FPRM y otras métricas posteriores, y como entrada para software de análisis de similitud genética como DESeq, edgeR y limma. En otras palabras, los resultados de la cuantificación de expresiones se utilizan principalmente para el análisis de componentes principales y el análisis de agrupamiento jerárquico, en lugar de CPM, RPKM y FPKM.

Concepto numérico: La fórmula es CPM = A/lecturas mapeadas*1000000 A es el número de lecturas en comparación con un gen (recuento de lecturas).

Cómo utilizar: Esta métrica se utiliza en algunos casos cuando solo se desea conocer el número relativo de lecturas cubiertas por cada gen sin corregir su longitud.

La homogeneización basada en lecturas totales es el método más sencillo, que se basa en dos supuestos básicos:

1) La expresión de la gran mayoría de genes permanece sin cambios

; p>2) La expresión de genes altamente expresados ​​permanece sin cambios;

Sin embargo, en realidad, una pequeña cantidad de genes altamente expresados ​​tienden a contribuir con una gran cantidad de lecturas al transcriptoma si estos son "altamente expresados". genes Cuanto mayor sea el número de lecturas, es menos probable que contribuyan con una gran cantidad de lecturas. Pero, de hecho, unos pocos genes muy abundantes en el transcriptoma tienden a contribuir con muchas lecturas, y si estos genes "muy abundantes" todavía se expresan diferencialmente, afectará la cantidad de lecturas asignadas a todos los demás genes. Además, sería demasiado ideal suponer que la cantidad total de ARNm en ambas muestras es la misma. Si se van a realizar comparaciones de expresión entre genes, se deben tener en cuenta las diferencias en la longitud de los genes.

Conceptos numéricos: Fórmula de cálculo: RPKM=(1000000*A)/(Lecturas mapeadas*longitud del gen/1000)

A es el número de lecturas comparadas con un determinado gen (lecturas contar).

El método RPKM elimina el impacto de las diferencias en la longitud del gen y el volumen de secuenciación en el cálculo de la expresión genética. La expresión genética calculada se puede utilizar directamente para comparar las diferencias de expresión genética entre diferentes muestras y comparar las diferencias entre diferentes genes. nivel de expresión.

Modo de uso: Se utiliza para análisis posteriores relacionados con la expresión génica. Como análisis de tendencias de expresión genética, construcción de redes de expresión WGCNA****, dibujo de mapas de calor, etc.

El significado de FPKM es muy similar a RPKM. La única diferencia entre los dos es Fragmentar y Leer. RPKM se creó para la secuenciación SE temprana, mientras que FPKM es una modificación de RPKM en la secuenciación PE. Los conceptos de RPKM y FPKM son fáciles de distinguir, siempre que comprenda la diferencia entre lecturas y fragmentos. Cada lectura se lee en los datos fastq posteriores, mientras que los fragmentos son la secuencia bicatenaria de cada fragmento de ácido nucleico utilizado para la secuenciación. Incluso si se descarta un extremo de la lectura, solo se cuenta 1 fragmento.

RPKM es adecuado para secuencias de ARN de un solo extremo

FPKM es muy similar a RPKM, pero adecuado para secuencias de ARN de extremos pares

TPM es similar a RPKM y FPKM, sólo el orden de las operaciones es diferente.

TPM es similar a RPKM y FPKM, excepto que el orden de las operaciones es diferente.

Al igual que RPKM, TPM también corrige la longitud del gen y calcula las lecturas/longitud del gen para obtener las lecturas de expresión corregidas por longitud por kilobase (RPK).

En comparación con RPKM, que utiliza la suma de lecturas como factor de corrección de biblioteca, TPM utiliza la suma de RPK como factor de corrección de biblioteca, lo que tiene la ventaja de tener en cuenta la distribución de longitudes de genes en diferentes muestras. Dado que RPK es una unidad de expresión corregida según la longitud del gen, la suma de RPK no incluye el sesgo de longitud del gen. Por lo tanto, si la distribución de las transcripciones es inconsistente entre las muestras que se van a comparar (como la comparación de secuencias de ARN de diferentes especies), Es mejor utilizar el esquema de normalización TPM.

Más materiales de referencia: /p/cd2888fec66b