Red de conocimiento informático - Conocimiento sistemático - Análisis inferencial de la red reguladora del gen GENIE3

Análisis inferencial de la red reguladora del gen GENIE3

Genie 3 utiliza un algoritmo de aprendizaje conjunto basado en árboles para inferir redes reguladoras de genes a partir de datos de expresión genética.

GENIE3 tiene dos algoritmos integrados de aprendizaje de conjuntos basados ​​en árboles, bosque aleatorio y árbol extra. El aprendizaje conjunto combina varios algoritmos de aprendizaje relativamente débiles para lograr un mejor rendimiento. El bosque aleatorio consta de múltiples árboles de decisión. El nivel es limitado. Este artículo explicará brevemente los bosques aleatorios y cómo se pueden aplicar los bosques aleatorios a la inferencia de redes reguladoras de genes.

En primer lugar, se introduce el árbol de decisión, que es un algoritmo de aprendizaje basado en reglas if-then-else. Por ejemplo, supongamos que queremos saber si la expresión genética se ve afectada por las modificaciones de las histonas, entonces podemos obtener estos datos:

Datos de modificación de histonas del análisis de secuenciación Chip-seq, como H3K4me1, H3K36me3, H3K27ac. y análisis de RNA-Seq para obtener datos de expresión génica. Luego, obtuvimos una tabla de cambios en la expresión génica en regiones enriquecidas con modificación de histonas y las regiones correspondientes mediante análisis.

En la tabla, 0 indica que no hay enriquecimiento significativo, 1 indica enriquecimiento significativo en la ubicación del gen y arriba y abajo indican respectivamente si el nivel de expresión del gen correspondiente está regulado hacia arriba o hacia abajo. . Por supuesto, los datos anteriores son inventados deliberadamente por mí y deben estar lejos de los datos reales, por lo que no son válidos. Es solo por conveniencia del argumento. Luego podemos dibujar un árbol de decisión simple basado en el enriquecimiento de las modificaciones de histonas:

De manera similar a lo anterior, la aplicación de categorías de evaluación basadas en algunas condiciones se llama clasificación. Por ejemplo, un equipo de investigación no hace trampa; ¿la sandía es buena o mala? ¿Lloverá mañana, nevará, iremos al Mar de China Oriental, etc.?

Sin embargo, lo que estamos discutiendo actualmente es la relación reguladora entre genes. En los organismos, el mecanismo de regulación genética es complejo. Un gen está regulado por múltiples factores de transcripción y un factor de transcripción regula múltiples genes. No podemos simplemente decir si un gen regula a otro gen. También debemos considerar la relación reguladora entre los factores de transcripción y los genes diana.

Esta relación moderadora se obtiene mediante regresión. La regresión se utiliza para predecir valores continuos y específicos. Por ejemplo, predecir el precio de una casa en función de su tamaño, ubicación, piso y orientación; predecir el nivel de expresión de un gen objetivo en función de los niveles de expresión de múltiples genes de factores de transcripción del gen objetivo.

En la figura anterior, los genes 1, 2 y 3 son factores de transcripción, y el gen 4 es el gen diana regulado por los genes 1, 2 y 3. Como puede verse en el árbol de decisión anterior, la expresión del gen 4 está regulada por los genes 1, 2 y 3. Este es un árbol de regresión muy simple. Los genes 1, 2 y 3 tienen diferentes efectos reguladores sobre el gen 4, por lo que pueden obtener puntuaciones de importancia diferentes.

En privado, la idea del árbol de regresión anterior es una de las razones importantes por las que GENIE3 se utiliza para construir relaciones de red regulatorias. Por supuesto, el autor no utilizó árboles de decisión de regresión directamente, sino que utilizó un algoritmo de aprendizaje conjunto basado en árboles de decisión, por supuesto porque los árboles de decisión tienen deficiencias. Pero la idea de construir una relación de supervisión básica se remonta al árbol.

También debo mencionar que el ejemplo anterior lo definí yo mismo y el árbol de decisión lo construí manualmente. Por ejemplo, en el ejemplo de clasificación, se selecciona si H3K36me3 está enriquecido como criterio de clasificación por primera vez y si H3K4me1 está enriquecido como criterio de clasificación por segunda vez. En el ejemplo de regresión, la primera clasificación selecciona si el gen 3 es

Esta no es una elección artificial cuando en realidad se utiliza un árbol de decisión. En aplicaciones reales, suele haber cientos o miles de atributos o características de entrada. En el proceso de construcción de relaciones reguladoras de genes, también se seleccionaron cientos de factores de transcripción como entradas para predecir genes diana. Esta no es una selección manual, sino una selección algorítmica. Se utilizan diferentes criterios de clasificación para los mismos datos en los árboles de decisión. Quien dibuje el árbol primero tendrá resultados finales diferentes. Pero este no es el tema central de este artículo, así que no lo mencionaré. Los niños interesados ​​pueden buscar "carro de árbol de decisiones".

Tres zapateros equivalen a Zhuge Liang. Porque solo se utiliza un árbol de decisión para hacer predicciones. Los resultados se ven fácilmente afectados por valores atípicos y propensos al sobreajuste (aunque GENIE3 no predice nuevas relaciones regulatorias al entrenar el modelo, si ocurre un sobreajuste, se pueden obtener relaciones regulatorias incorrectas). Por lo tanto, el bosque aleatorio (RF) combina múltiples árboles de decisión y considera exhaustivamente los resultados de salida de diferentes árboles de decisión para obtener el resultado final.

La aleatoriedad del bosque aleatorio se refleja en dos aspectos:

Esta aleatoriedad evita el impacto de muestras o características anormales en los resultados. El resultado final se referirá al resultado de todos los árboles de decisión. En las tareas de clasificación, el resultado final se puede determinar mediante votación. En las tareas de regresión, se pueden promediar los resultados de los árboles de decisión.

Si entendemos el árbol de regresión para predecir la expresión del gen diana, la siguiente figura es fácil de entender.

Los datos de expresión en la imagen de arriba son muestras de comportamiento, enumeradas como genes. Esto es inconsistente con la entrada del paquete GENIE3 R (genes conductuales, incluidas muestras), pero no importa, porque la entrada se transpondrá en el paquete R y luego se calculará.

Hay g genes en la imagen, cada gen se usará como salida (expresión del gen objetivo) y los genes restantes se usarán como entrada (expresión del gen regulador) para construir g modelos forestales aleatorios. Luego se calcula la importancia de cada gen regulador en cada modelo para el gen diana y se obtiene la relación reguladora entre ellos. Luego, todos los modelos se clasifican según sus relaciones moderadoras.

Cabe señalar que en la figura anterior, todos los genes excepto los seleccionados como genes diana se consideran genes reguladores. Sin embargo, los autores sugieren que se deberían especificar los genes reguladores. En este momento, cuando el gen diana seleccionado no está entre los genes reguladores, los genes de entrada son todos genes reguladores. Cuando el gen diana seleccionado está entre los genes reguladores, los genes de entrada son otros genes reguladores inesperados excepto el gen diana seleccionado.

GENIE3 es muy fácil de usar. Consulte TES/genie 3/inst/Doc/genie 3. html

GENIE3 tiene una versión Python y una versión R. Si estás familiarizado con el calzado infantil en estos dos idiomas, puedes echar un vistazo al código fuente.

Algunas cosas no estaban escritas y otras no estaban escritas con claridad. Cambiémoslo más tarde~