RPKM, FPKM, TPM
En el análisis de RNA-Seq, comúnmente utilizamos RPKM, FPKM y TPM como métodos de representación cuantitativa de datos del transcriptoma. Todos son métodos para normalizar los niveles de expresión, y RPKM, FPKM y TPM son para eliminar los efectos de. longitud del gen y profundidad de secuenciación.
En el análisis RNA-Seq, para obtener genes expresados diferencialmente, sólo es necesario comparar el número de lecturas de secuenciación de diferentes genes. Sin embargo, comparar el número de lecturas de diferentes genes no se puede utilizar directamente para comparar la diferencia de expresión de los dos genes, porque hay una verdad muy simple en RNA-seq: cuanto más largo es el gen, mayor es el número de lecturas de este gen. ; la profundidad de secuenciación Cuanto mayor sea el valor, mayor será el número de lecturas en esta secuencia de ARN. En otras palabras, el número de lecturas no sólo está relacionado con la cantidad de expresión genética, sino también con la longitud y profundidad de secuenciación del gen. Por lo tanto, para comparar las diferencias de expresión entre diferentes genes (con ciertas diferencias en la longitud del gen) a través de múltiples repeticiones de RNA-seq (con ciertas diferencias en la profundidad de secuenciación), las lecturas no se pueden usar para comparación directa, pero las lecturas deben ser normalizado.
Nombre completo:
Las lecturas por kilobase del modelo de exón por millón de lecturas mapeadas (lecturas por millón de lecturas mapeadas por modelo de mil exones) se utilizan principalmente para cuantificar lecturas de ARN de un solo extremo por millón. lecturas mapeadas por modelo de mil exones Un método para cuantificar la secuenciación de ARN de un solo extremo (single-end RNA-seq).
La fórmula de cálculo es:
RPKM = lecturas totales de exón/(lecturas mapeadas (millones) * longitud del exón (KB)); /p>
Lecturas totales de exones: todas las lecturas en una muestra específica que se asignan a exones de un gen específico
Lecturas mapeadas (millones): la suma de todas las lecturas en una muestra específica
p>Longitud del exón (KB): La longitud de un gen específico (suma de las longitudes del exón, en KB).
Puedes utilizar esta fórmula para calcular la expresión de genes, exones y transcripciones
En resumen, RPKM se calcula mediante:
Calcular lecturas Total: Calcular el número total de lecturas para cada muestra de RNA-seq y luego conviértalo en unidades de millones de bits (M).
Número total normalizado de lecturas: divida el número de lecturas para todos los genes por el número total de; Lecturas
Normalizar la longitud del gen: luego divida el número de lecturas para todos los genes por la longitud del gen (la longitud del gen está en kb)
Modelo de exón por millón de fragmentos mapeados por mil El número de fragmentos de bases (Fragmentos por kilobase de transcripción por millón de lecturas mapeadas) se calcula principalmente para la expresión de secuenciación pareada.
De hecho, FPKM es lo mismo que RPKM, excepto que RPKM se usa para secuenciación de un solo extremo, mientras que FPKM se usa para secuenciación de extremo par.
En la secuenciación de segunda generación, todo el ADN se descompone en fragmentos y luego se secuencia. Para la secuenciación de un solo extremo, un fragmento corresponde a una lectura; para la secuenciación de dos extremos, un fragmento se mide una vez desde ambos extremos, por lo que las dos lecturas emparejadas corresponden al mismo fragmento (ocasionalmente, un fragmento corresponde a una sola lectura y el otro lee Una lectura se cayó o se perdió por algún motivo).
La diferencia es que para FPKM, dos lecturas emparejadas con el mismo fragmento solo se cuentan como una lectura, lo que significa que FPKM se basa en la cantidad de fragmentos en lugar de lecturas, y el resto del método de cálculo es completamente igual.
Transcripciones por kilobase del modelo de exón por millón de lecturas mapeadas.
La fórmula de cálculo es:
TPMi = (Ni/Li) * 1000000 / suma(Ni / Li......... Nm/Lm);
Ni: el número de lecturas asignadas al gen i
Li: la suma de las longitudes de los exones del gen; i.
El método de cálculo de TPM es en realidad muy similar al de RPKM. Ambos normalizan la longitud del gen y la profundidad de secuenciación. Sin embargo, RPKM primero se normaliza mediante la profundidad de secuenciación y luego se normaliza mediante la longitud del gen. por longitud del gen y luego normalizado por profundidad de secuenciación. Resulta que el método de normalización TPM es más ventajoso y TPM se puede utilizar para comparar diferentes tejidos de la misma especie porque el valor sumado siempre es único.
En resumen, el método de cálculo de TPM es:
Longitud del gen normalizada: divida el número de lecturas de todos los genes por la longitud del gen (la longitud del gen está en miles); p>
Calcule el número total de lecturas: calcule el número total de lecturas para cada muestra y luego conviértalo en millones de bits (M);
Normalice el número total de lecturas: use todo número de lecturas de un gen dividido por el número total de lecturas.
Lecturas/recuentos del modelo de exón por millón de lecturas mapeadas (lecturas por millón de lecturas mapeadas)
Fórmula de cálculo para CPM:
CPM = Total de lecturas de exón/lecturas mapeadas (millones)
Referencias:
/s?__biz=MzUzMTEwODk0Ng==amp; mid=2247484190amp ;scene=21#wechat_redirect
/p/1940c5954c81