Red de conocimiento informático - Aprendizaje de código fuente - Método de máxima verosimilitud (2) Aplicación específica en filogenia

Método de máxima verosimilitud (2) Aplicación específica en filogenia

El siguiente contenido se basa en el material didáctico proporcionado por el profesor Christopher P. Randle cuando se comunicó con el grupo de investigación.

En filogenia, el propósito del modelo es determinar la probabilidad de que ocurra un cierto cambio de estado de rasgo en una rama con una longitud de rama determinada. Los cambios en las propiedades y estados moleculares son sustituciones de bases.

Para poder construir el modelo, debemos dar algunos requisitos previos. Es posible que estas condiciones previas no coincidan con la realidad, pero tienen como objetivo simplificar las cosas y hacer posible el modelado. Estos prerrequisitos incluyen:

1. La sustitución de bases es un proceso de Markov

Significa que lo que sucede en cada rama es independiente entre sí y solo se ve afectado por la influencia del estado del carácter. de los taxones al final de la rama.

La sustitución de 2 bases es reversible en el tiempo.

Debido a que la estimación de los valores de probabilidad a menudo se realiza en árboles sin raíces, el cambio en el estado del rasgo (aquí, transformación de base o sustitución de base) tampoco tiene dirección. Por ejemplo, por A El cambio a C. tiene la misma probabilidad que el cambio de C a A:

p(A->C)=p(C>A)

3 Proceso uniforme ( Homogeneidad):

Todo el proceso evolutivo es homogéneo y uniforme en diferentes rasgos y procesos de ramificación.

Sabemos desde antes que lo más importante al construir un modelo es encontrar parámetros para representar los supuestos dados.

Los parámetros necesarios para establecer un modelo evolutivo de secuencias de ADN se utilizan para estimar la probabilidad de que se produzca una determinada sustitución de bases en una rama de una longitud de rama específica.

Entonces, ¿cómo expresamos este parámetro?

Este parámetro se expresa como elementos de una matriz, llamada matriz Q. Cada elemento de esta matriz es un parámetro que representa la probabilidad de que ocurra dicha sustitución de bases.

Presentamos el modelo más importante del método de máxima verosimilitud: el Modelo General de Tiempo Reversible, o GTR para abreviar.

Sus elementos son el logaritmo natural de la probabilidad correspondiente a cada elemento de la matriz anterior:

Cada elemento se puede dividir en esta expresión:

p>

= μ× ×

μ representa el parámetro de la tasa de sustitución instantánea media, que es constante para todos los elementos de la matriz.

Representa la tasa instantánea relativa (parámetro de tasa relativa), que cambia en diferentes elementos de la matriz y está representada por letras minúsculas griegas.

Representa el valor esperado de la frecuencia de aparición del estado del rasgo j en la matriz de datos, que se denomina parámetro de expectativa (parámetro de frecuencia).

Dijimos que μ es numéricamente constante en todos los elementos y podemos dejarlo así.

De acuerdo con el requisito previo de que la sustitución de bases sea reversible en el tiempo (por ejemplo, la conversión mutua de las bases A y C), la velocidad instantánea relativa de las dos sustituciones de bases (A a C y C a A) parámetro) son iguales, por lo que ahora tenemos 6 tasas instantáneas relativas.

En un instante, la base cambia o no cambia, y la probabilidad de que el cambio suceda o no sea 1, es decir, p (A->A) + p (A->C) + p (A ->G) + p (A->T) =1. Por lo tanto, cuando la base no ha cambiado, como A->A, el valor de p (A->A) es 1 menos el valor de otros elementos cambiados.

?

Cabe señalar que, como dijimos antes, debido a que el valor de probabilidad suele ser muy pequeño, es un número después del punto decimal. Para evitar problemas, generalmente usamos el logaritmo natural (. lnN) para expresarlo, en GTR, cada elemento también está representado por el logaritmo natural del valor de probabilidad, por lo que la suma de cada fila es ln(1), que es 0, y la posición p (A->A). es 0 menos los otros tres La suma de elementos es el valor negativo de la suma de los otros tres elementos.

Otros modelos se basan en el modelo GTR, agregan algunas condiciones previas y se supone que algunos parámetros no cambian, lo que simplifica la expresión del parámetro.

El modelo F846 (también conocido como HKY85, Hashagano Kishino Yano 1985) ya no considera la tasa instantánea relativa de transiciones entre cada par de bases, sino que divide las transiciones de bases en dos categorías principales: transversiones (transformación, la mutua conversión entre purina y pirimidina) y transición (transición, la conversión entre purina o pirimidina), y se supone que la transversión y la conversión tienen cada una una velocidad instantánea relativa a, b.

Además, podemos asumir que el parámetro esperado también es constante en los elementos, π=0,25, que es el modelo de 2 parámetros de Kimura (K2P):

El modelo más simple es el supuesto Con la tasa instantánea relativa y los parámetros deseados constantes, este es el modelo Jukes-Cantor (JC69):

Podemos resumir que todos estos modelos son homogéneos y anidados.

Homogéneo se refiere a que el proceso evolutivo es homogéneo y uniforme entre los diferentes rasgos y ramas del árbol.

Anidado (anidado) significa que todos los modelos se basan en el modelo GTR agregando requisitos previos y cambios.

La matriz Q que mencionamos en la puerta principal solo representa la tasa de sustitución instantánea y queremos calcular la probabilidad de sustitución base. Por lo tanto, el método matemático de sobreintegración de la matriz Q debe ser. convertida en una matriz P de base representativa de probabilidades de sustitución. Este y Q se pueden deducir usando la siguiente fórmula:

Para convertir el modelo que mencionamos anteriormente de la matriz Q dada a una matriz P se requieren algunos métodos matemáticos de integración. Aquí solo damos Aquí hay un. ejemplo después de la conversión.

Tomemos como ejemplo el modelo K2P (diferentes tasas de conversión y transversión, pero los mismos parámetros esperados). La relación de tasas de conversión y transversión (α/β) es κ, luego los elementos en el. La matriz P no lo es Excepto por las siguientes tres situaciones, i y j representan dos estados de rasgo:

El primero significa cuando no ocurre la sustitución de bases

El segundo significa cuando ocurre; La sustitución de bases es una conversión;

El tercer tipo de sustitución de bases que ocurre es una transversión.

Asumimos que μ= 0,3, κ =4,0 y calculamos la probabilidad dentro del período de tiempo de t=0,1:

La matriz P en este momento es:

Actualmente Hasta ahora, no hemos calculado el valor de probabilidad de un árbol, así que intentémoslo con el ejemplo más simple:

Para este árbol dado, estimemos algunos de sus valores de probabilidad:

Primero, marque la probabilidad de sustitución base de cada rama en la rama:

Luego calculamos el valor de probabilidad de todo el árbol, que es el producto de las probabilidades de cada rama, y La probabilidad de que su ancestro más reciente sea A es 0,25, porque hay cuatro bases (A, C, T, G):

El valor de probabilidad de este árbol viene dado por este árbol La probabilidad de que tal árbol aparecerá dada la longitud de la rama y la topología, expresada como el logaritmo natural de la probabilidad.

Según la hipótesis de la evolución del reloj molecular (evolución similar a un reloj), la tasa de sustitución de bases en todos los sitios debe ser uniforme en todo el árbol filogenético, luego la longitud de la rama (que representa cuánta evolución ha ocurrido, aquí También se puede entender que la cantidad de sustituciones de bases que se han producido está únicamente relacionada con el tiempo. Sin embargo, esto no suele ser así en la realidad y las tasas de sustitución de bases son diferentes en las distintas ramas. Al igual que la tortuga y la liebre, si corres la misma distancia, una razón es que tardas más y la otra es porque corres más rápido. Aquí tenemos: la misma longitud de rama, tal vez porque tarda mucho en evolucionar. , o tal vez porque lleva mucho tiempo evolucionar. Es la tasa de sustitución de base la que es rápida.

Aquí damos un sustantivo: rate heterogeneity (rate heterogeneity)

¿Qué causa la heterogeneidad en el ritmo de evolución de los rasgos?

La razón puede ser que algunos sitios son críticos para la supervivencia de los organismos, como dirigir la síntesis de algunas macromoléculas importantes, y por lo tanto están sujetos a una mayor presión de selección, lo que hace que sea menos probable que se produzcan sustituciones de bases. O en el mismo codón, los cambios en la primera y segunda posición provocarán cambios en los aminoácidos codificados (mutaciones no sinónimas), y los cambios en la tercera posición fácilmente provocarán cambios en los aminoácidos codificados (mutaciones sinónimas). es La tasa de evolución del tercer sitio será más rápida que la de los dos primeros sitios.

Nota: Las últimas investigaciones también creen que mutaciones sinónimas también pueden afectar las funciones biológicas. He aquí sólo un ejemplo para ayudar a comprenderlo. Después de todo, la ciencia siempre avanza.

Ahora, ¿qué deberíamos hacer si tomamos en cuenta la heterogeneidad de la evolución de los rasgos en el modelo? Dos enfoques:

Un enfoque es asumir que algunos sitios son constantes y otros tienen libertad para transformarse.

Para cada sitio, calculamos dos valores de probabilidad: uno es la probabilidad de que todo el árbol no haya cambiado. Si la base de este sitio no cambia en todos los taxones, entonces el valor de es 1, si es así. es diferente entre taxones, el valor de es 0; uno es el valor de probabilidad de cada sitio si ocurre una sustitución de bases, y el valor se calcula tal como en el ejemplo que acabamos de dar.

Además, se agrega un parámetro ?, que representa la proporción de sitios sin cambios entre todos los sitios en el árbol filogenético.

Para un rasgo j, la fórmula de cálculo del valor de probabilidad del árbol es:

=? +(1-?)

El segundo método es sumar un parámetro de tarifa adicional para cada sitio: ?.

?Los parámetros asignan heterogeneidad de tasas entre sitios en función de una distribución gamma.

Aquí presentaremos la distribución gamma:

Podemos ver en la figura que la distribución gamma es aproximadamente una curva en forma de campana, con valores altos del eje y en el Centro y valores altos en los extremos. El valor del eje y del valor es bajo. Como curva de densidad de probabilidad, puede reflejar mejor la situación que encontramos: las tasas de evolución de la mayoría de los sitios son relativamente cercanas, pero hay individuos. Sitios donde la tasa de evolución es muy rápida o muy lenta.

Después de determinar la forma y el rango de valores de la curva gamma, dividiremos la distribución gamma, la dividiremos en niveles ( ) según la densidad de probabilidad de la distribución gamma que representa, y asignaremos estos niveles a la correspondiente El sitio representa la tasa de evolución de la heterogeneidad del sitio.

La expresión de P se convierte en:

A veces, estos dos métodos se usan en el mismo modelo al mismo tiempo, es decir, los parámetros se usan al mismo tiempo. . Pero debemos entender que todos ellos se utilizan para significar una cosa: heterogeneidad de tasas entre sitios.

? está relacionado con el valor de α, lo que a veces provoca inexactitud en los cálculos. Si el número de sitios que no cambian no es grande, solo necesitamos usar el parámetro? para simular la diferencia en las tasas evolutivas entre sitios.

Hasta ahora, solo hemos dicho cómo calcular el valor de probabilidad de un árbol determinado, entonces, ¿cómo encontramos el árbol óptimo que queremos?

El árbol óptimo es el árbol con el mayor valor de probabilidad. En este sentido, el método de máxima verosimilitud es muy similar al método de máxima parsimonia. Sin embargo, el método de máxima parsimonia es más intuitivo, mientras que el método de máxima verosimilitud debe considerar múltiples aspectos al mismo tiempo para lograr la optimización: topología, longitud de rama, valores de parámetros del modelo, etc. Sin embargo, los valores de los parámetros del modelo no proporcionan mucha información útil para explicar el proceso de evolución, pero no se pueden evitar durante el análisis. A estos parámetros los llamamos brutalmente parámetros molestos.

Por tanto, computacionalmente, el método de máxima verosimilitud es mucho más complejo y más lento que el método de máxima parsimonia. Pero los continuos avances en la tecnología informática han mejorado este problema.

Al seleccionar el árbol óptimo, el método de máxima verosimilitud es muy similar al método de máxima parsimonia:

Seleccione un árbol inicial y ajuste continuamente la longitud de la rama y los parámetros del modelo hasta alcanzar el valor de probabilidad. alcanza el Máximo y luego transforma otra topología basada en el árbol y ajusta la distribución de la longitud de la rama y los parámetros del modelo nuevamente hasta que el valor de probabilidad alcance el máximo, y así sucesivamente.

De hecho, para mejorar la velocidad de búsqueda del árbol óptimo, los parámetros de la matriz Q generalmente se mantienen sin cambios. Solo se ajustan la topología y la longitud de la rama. los parámetros se basan en un árbol de parsimonia máxima estimado.