Red de conocimiento informático - Material del sitio web - Conceptos y comparación de métodos de estandarización para la cuantificación del valor de expresión genética RPKM, FPKM y TPM

Conceptos y comparación de métodos de estandarización para la cuantificación del valor de expresión genética RPKM, FPKM y TPM

En la secuenciación del transcriptoma, varios métodos comunes de estandarización para los valores de recuento de lectura se basan en la profundidad de secuenciación y la longitud del gen.

Método de cálculo de RPKM (lecturas por millón de kilobase):

Calcule el número total de lecturas en la muestra y luego divídalo por 1000000 para obtener el factor de escala del millón.

Divida el valor del recuento de lecturas de cada gen por el factor de escala de millón para normalizar la profundidad de secuenciación y obtener la proporción de lecturas del gen por millón de lecturas (lecturas por millón, RPM).

Dividimos el valor de RPM por la longitud del gen en kilobases para obtener el RPKM.

FPKM (Fragmentos por millón de kilobases) es muy similar a RPKM:

RPKM es para secuenciación de un solo extremo, donde cada lectura corresponde a un fragmento secuenciado que se utiliza para emparejar; -Secuenciación final, dos lecturas (divididas en extremos R1 y R2) corresponden a un fragmento de secuenciación. La única diferencia entre RPKM y FPKM es que FPKM tiene en cuenta pares de lecturas que se originan a partir de la secuenciación de un fragmento de ADN, por lo que no cuenta lecturas de los mismos fragmentos dos veces.

TPM (Transcripciones por millón de kilobases) también es similar a RPKM y FPKM, pero el orden de cálculo es ligeramente diferente:

Divida el valor del recuento de lecturas de cada gen por la Longitud (en kilobases), obtener el número de lecturas por kilobase (lecturas por millón, RPK) del gen.

Calcule todos los valores de RPK en la muestra y divídalos por 1.000.000 para obtener el factor de escala de un millón.

Divida el valor de RPK por el factor de escala de un millón para obtener el valor de TPM.

Por lo tanto, se puede ver que, en comparación con RPKM y FPKM, la única diferencia entre TPM y RPKM es que primero se normaliza la longitud del gen y luego se normaliza la profundidad de la secuencia. Pero el impacto de esta diferencia es claro.

Cuando se utilizan TPM, la suma de todos los TPM en cada muestra es la misma, lo que facilita la comparación de la proporción de lecturas asignadas a genes en cada muestra. Con RPKM y FPKM, la suma de lecturas normalizadas en cada muestra puede diferir, lo que hace que las comparaciones directas entre muestras sean más complejas.

Por eso el método TPM se está volviendo cada vez más popular.

Si el TPM del gen A en la muestra 1 es 3,33 y el TPM en la muestra B es 3,33, se puede considerar que la proporción del número total de lecturas asignadas al gen A en las dos muestras es exactamente igual, porque las dos muestras La suma de los TPM en cada muestra es siempre el mismo número (por lo que el denominador necesario para calcular la proporción es el mismo sin importar qué muestra esté mirando).

Usando RPKM o FPKM, la normalización en cada muestra La suma de lecturas puede ser diferente. En este momento, si el RPKM del gen A en la muestra 1 es 3,33 y el RPKM en la muestra 2 es 3,33, es difícil saber si la proporción de. Las lecturas asignadas al gen A en las dos muestras son las mismas. Esto se debe a que se calcula la proporción. El denominador requerido puede diferir entre las dos muestras.