Red de conocimiento informático - Material del sitio web - Corrección de pruebas múltiples

Corrección de pruebas múltiples

En nuestra breve exploración de la distribución hipergeométrica en el análisis de enriquecimiento, hablamos de juzgar la importancia de los genes enriquecidos por el tamaño del valor p, pero el valor p es artificial y no se puede decir que sea menor que p. -Valor, el resultado es correcto. El valor p pequeño aquí solo significa que la probabilidad de falsos positivos es pequeña, pero no necesariamente significa que sea correcto. p=0,05 significa que la probabilidad de equivocarnos en 1 prueba es 5, pero si probamos hasta 10.000 veces, la probabilidad de equivocarnos será de más de 500 veces; Sin embargo, si hacemos 10.000 pruebas, la probabilidad de error será superior a 500. Aquí, la probabilidad de cometer un error permanece constante (5), pero el número de errores en realidad aumenta con el número de pruebas. Por lo tanto, debemos realizar múltiples correcciones de prueba para minimizar la cantidad de falsos positivos.

Bonferroni es el método más sencillo y exigente. Reduce la tasa de falsas alarmas bajando directamente el umbral a un valor muy bajo. Por ejemplo, para las mismas 10.000 pruebas, un umbral de 5 seguirá dando como resultado hasta 500 falsos positivos; sin embargo, cuando aumentamos el umbral a 5/10.000, incluso con 10.000 pruebas, el número de falsos positivos seguirá siendo el mismo; menos de 1.

La fórmula del umbral de corrección de Bonferroni es: p*(1/n), donde p es el umbral normal y n es el número de pruebas.

Aunque reducir el umbral puede reducir muy directamente la probabilidad de falsos positivos, también es demasiado severo y es probable que filtre los verdaderos positivos, que es el positivo que queremos.

FDR (False Discovery Rate) intenta lograr un equilibrio entre falsos positivos y falsos positivos de una manera más suave (es decir, no evita que se produzcan falsos positivos; /La proporción de verdaderos positivos se controla dentro de un rango determinado).

El objetivo de FDR es intentar obtener un umbral de corrección tal que la proporción de falsos positivos entre los resultados diferenciales encontrados sea muy baja, por ejemplo, para 10.000 pruebas, sin importar cuántos genes diferenciales obtengamos; , ¿Puedo asegurar que la tasa de error de los resultados caracterizados como genes diferenciales esté dentro de 5? Si encontramos 100 genes diferenciales, puedo golpearme el pecho y decir: "No hay más de 5 genes diferenciales incorrectos". Esto se llama FDRlt;5.

Existen muchos modelos para estimar FDR a partir de valores de P. El más utilizado es el método de Benjamini y Hochberg, denominado BH. No es lo suficientemente preciso, pero es simple y fácil de usar.

La fórmula del método BH es: p*(m/k), donde p es el valor p comúnmente utilizado, m es el número de pruebas y k es la clasificación del valor p del prueba entre todas las pruebas. Por ejemplo, si la prueba se realiza 100 veces (m), entonces el valor Q clasificado en el décimo lugar es 0,03 (100/10) = 0,3, lo que significa que en las primeras 10 pruebas, los genes diferenciales incorrectos no superan 10*0,3.

Los umbrales comunes para FDR son 0,1, 1, 5, etc., que se pueden establecer en 25, lo que indica que un resultado genético diferencial de 25 es incorrecto.

El método BH es sólo una predicción de FDR, no es exacto y sigue siendo demasiado estricto (los umbrales siguen siendo demasiado estrictos, los falsos negativos son demasiado altos). El método más conocido y preciso es el método de Storey.

valor p: mide la tasa de falsos positivos de una sola prueba;

valor q: mide la tasa de descubrimiento falso o FDR. Valor Q: una medida de la tasa de descubrimiento falso (FDR, la probabilidad de un falso positivo en todas las pruebas).

El valor Q del parámetro se usa para predecir FDR. El valor Q se calcula a partir del valor p ajustado usando una fórmula, por lo que el valor Q generalmente se llama valor p ajustado, por lo que en general: podemos pensar en el valor Q = FDR =. Valor p ajustado, es decir, los tres son lo mismo. Aunque existen algunas diferencias sutiles en las definiciones, no es un gran problema. Entonces, en general: podemos pensar en valor Q = FDR = valor p ajustado, eso. Es decir, los tres son lo mismo, aunque existen algunas definiciones. Diferencia sutil, pero no gran cosa.