Red de conocimiento informático - Aprendizaje de código fuente - ¿Qué son LogFC, valor p y valor FDR en minería de datos?

¿Qué son LogFC, valor p y valor FDR en minería de datos?

Cuando la minería de datos GEO o el análisis del transcriptoma de genes expresados ​​diferencialmente, Log2FC, el valor p y el valor FDR aparecerán en los resultados. Estos tres valores son las diferencias de minería de datos geográficos del árbol de habilidades de bioinformática. y Curso Introductorio Popular a la Bioinformática. Puntos clave mencionados en el cribado genético. ¿Qué significan estos valores? Para ampliar los conocimientos aprendidos en clase, resumámoslos ahora.

Pliegue de diferencia (cambio de pliegue), cambio de pliegue se traduce en cambio de pliegue. El parámetro de entrada aceptado por limma es una matriz de expresión, y es la matriz de expresión después de log (base 2).

El valor de la columna logFC es en realidad la expresión promedio del grupo de casos en la matriz de expresión de entrada menos la expresión promedio del grupo de control. Luego se dividirá en positivo y negativo, lo que representa el caso. equivalente al grupo de control, ya sea que el gen esté regulado hacia arriba o hacia abajo.

Supongamos que el valor de expresión del gen A es 1 y el valor de expresión del gen B es 3, entonces la expresión del gen B es 3 veces la del A. Generalmente, usamos recuento, TPM o FPKM para medir los niveles de expresión genética, por lo que el valor de expresión genética debe ser un número no negativo, luego el valor del cambio es (0, ∞).

¿Por qué a menudo vemos números negativos que representan una regulación negativa y números positivos que representan una regulación positiva en genes diferenciales? Porque usamos el cambio de pliegue log2.

Cuando expr(A) lt; expr(B), el cambio de pliegue de B a A es mayor que 1, el cambio de pliegue log2 es mayor que 0 (consulte la figura siguiente) y B aumenta. relativo a A;

p>

Cuando expr (A) gt; Por lo general, para evitar que ocurra NA al tomar log2, sumamos 1 (o un número muy pequeño) al valor de la expresión, es decir, log2(B 1) - log2(A 1).

Supongamos que A se expresa como 1, B se expresa como 8 y C se expresa como 64 directamente usando la diferencia B con respecto a A, aumentará en 7 y C aumentará en 56 en relación. a B; use un cambio de log2 veces, B en relación con A estaba regulado positivamente en 3, y C solo estaba regulado positivamente en 3 en relación con B. A través de la observación de secuenciación, encontramos que las diferencias de expresión de diferentes genes en las células son muy enorme, por lo que obviamente es inapropiado utilizar directamente la diferencia de log2 para expresar mejor la tendencia de cambio relativo.

FC en log2FC es el cambio en veces, que representa la relación de expresión entre dos muestras (grupos). Tomando el logaritmo de base 2 es log2FC. Generalmente, de forma predeterminada, el valor absoluto de log2FC mayor que 1 se utiliza como criterio de detección para genes diferenciales;

Según la mayoría de los informes de la literatura, se obtiene 1 y también se obtienen 1/2/1,5. No hay reglas para esto. Puede tener tantos números como desee y debe combinarlos con sus propios datos. Si toma 1,5 y no puede encontrar el gen diferencial, simplemente deseche los datos.

Sí, este estándar lo estableces tú mismo. En cuanto al sistema nervioso, los pequeños cambios tendrán efectos. Además, preste atención para ver si hay efectos de lote en los datos del chip. Si no se eliminan, puede haber problemas al calcular los genes diferenciales. Además, es posible que el análisis de diferencias de los valores de la señal de metilación no se base en logFC, así que preste atención.

El valor está en la categoría de estadística. La prueba de hipótesis primero debe tener una hipótesis. Suponemos que no hay diferencia en las expresiones de A y B (H0, hipótesis nula), y luego nos basamos en esta hipótesis. , pase la prueba t (con RT-PCR (por ejemplo)) Calcule la probabilidad de que ocurran A y B que observamos y obtenga el valor P. Si el valor P <0,05, significa que es una probabilidad pequeña. Ha ocurrido el evento y debemos rechazar la hipótesis nula, es decir, la expresión de A y B no son iguales, es decir, hay una diferencia significativa.

logFC es el logaritmo del cambio de pliegue (algunos dicen que es un logaritmo o un múltiplo, pero la mayoría de la gente lo toma como un logaritmo), -logP.val es el logaritmo del valor p y luego añade un signo negativo. Debido a que los valores p son generalmente muy pequeños, generalmente se utilizan logaritmos para trazar. Y como generalmente p lt; 1, el logaritmo siempre es negativo, por lo que agregamos un signo negativo para facilitar la gráfica. Por ejemplo, p = 0,01 se convierte en 2 después de tomar -logP, y p = 0,001 se convierte en 3. Verás, esto es fácil de dibujar.

La significación solo puede mostrar que nuestros datos son estadísticamente significativos. Para ver si hay un aumento o una disminución, debes retroceder y observar la diferencia múltiplo.

La Tasa de Falso Descubrimiento se obtiene corrigiendo el valor p de significancia de la diferencia (valor p). Dado que el análisis de expresión diferencial de la secuenciación del transcriptoma es una prueba de hipótesis estadística independiente sobre una gran cantidad de valores de expresión génica, habrá problemas de falsos positivos. Por lo tanto, durante el proceso de análisis de expresión diferencial, se utilizó el método de corrección reconocido de Benjamini-Hochberg para probar la secuenciación del transcriptoma. Hipótesis original. Se corrigió el valor p significativo (valor p) obtenido de la prueba y finalmente se utilizó FDR como indicador clave para la detección de genes expresados ​​diferencialmente. Generalmente, se utiliza FDRlt; 0,01 o 0,05 como estándar predeterminado.

La selección de estos dos indicadores se basa generalmente en valores empíricos y no es del todo imposible de ajustar. Cuando el número de genes diferenciales en el experimento es demasiado bajo o demasiado alto, el indicador se puede ajustar.

De hecho, las varias líneas de puntos en el gráfico de expresión diferencial del volcán (como se muestra a continuación) que se ven a menudo son la encarnación de estos dos indicadores.