Red de conocimiento informático - Computadora portátil - 2020-08-11-Una revisión de los algoritmos de llamada de variantes somáticas de un solo nucleótido

2020-08-11-Una revisión de los algoritmos de llamada de variantes somáticas de un solo nucleótido

Revisión de algoritmos de llamada somática Revisión de algoritmos de llamada de variante somática de un solo nucleótido

Información básica del artículo

Título del artículo: Una revisión de algoritmos de llamada de variante somática de un solo nucleótido para datos de secuenciación de próxima generación doi :10.1016/j.csbj.2018.01.003

Resumen

Los pasos principales para llamar a las mutaciones son el mapeo -> Llamar a las herramientas de ADN para el mapeo de mutaciones involucra principalmente las herramientas de ARN BWA. Principalmente presentamos los principios y algoritmos de llamada de herramientas de mutación actualmente en el mercado, que se pueden resumir en cuatro categorías: mutaciones normales de tumores coincidentes, mutaciones de muestra única, mutaciones basadas en umi y mutaciones de RNA-seq

Introducción detallada a algunos algoritmos

1. Preprocesamiento

El objetivo principal del preprocesamiento es evitar que lecturas de baja calidad entren en diferentes procesos de evaluación. La calidad de lectura generalmente se mide mediante el puntaje de calidad base promedio, el puntaje de calidad del mapeo y el número de discrepancias en el genoma de referencia

- Mejora la precisión en la identificación de inserciones samtools vs picard

- Elimina la repetición de PCR secuencias (pero esto no se recomienda en aplicaciones de secuenciación de secuencias amplificadas basadas en PCR, ya que diferentes fragmentos de ADN pueden disfrutar de las mismas coordenadas genómicas)

- Mejorar la precisión de la identificación de inserciones samtools vs picard

- Eliminar repeticiones de PCR (pero esto no se recomienda en aplicaciones de secuenciación de amplificación basadas en PCR, ya que diferentes fragmentos de ADN pueden disfrutar de las mismas coordenadas genómicas)

2. Este paso también incluye la reducción de resolución. Se selecciona aleatoriamente un subconjunto de lecturas para continuar con el siguiente paso. Si reduce la muestra de áreas específicas, puede ahorrar tiempo de cálculo y mejorar la coherencia de la cobertura, pero también puede generar resultados indeterminados).

2. Llamar a la variabilidad

Diversos software utilizan sus propios algoritmos para llamar a la variabilidad

3. Procesamiento posterior a la selección

Secuenciación en In En algunos casos, se puede engañar a los modelos estadísticos haciéndoles creer que se trata de una verdadera variabilidad. La mayoría de las personas que llaman con variantes utilizan umbrales para identificar estas ubicaciones, aumentando así la especificidad. Por ejemplo, las lecturas falsas comunes en Illumina son los "filtros de polarización de hebras", que capturan lecturas en las que se observa única o predominantemente una hebra, y los "filtros de preferencia de hebras" que dependen de Fisher para identificar distribuciones de cadena desequilibradas. Muchos filtros se centran en regiones repetitivas, como homopolímeros, microsatélites o regiones de baja complejidad, que se sabe que causan errores debido a errores de alineación y secuenciación. La mayoría de los que llaman a las mutaciones utilizan filtros estrictos que rechazan completamente las mutaciones en ciertas regiones o se basan en umbrales estrictos empíricos.

4. Relacionar tumores normales para llamar mutaciones

El siguiente es el principio básico de cada software presentado en el artículo

El principio básico es utilizar tumores para identifique variantes potenciales y utilice muestras normales coincidentes para distinguir las variantes somáticas de la pérdida de variación intragerminal (LOH). VarScan2, qSNP, Shimmer, RADIA, SOAPsnv y VarDict VarScan2 requiere al menos dos lecturas admitidas y un VAF del 8 % (ajustable por el usuario) para posibles SNV. Se encuentran umbrales similares en otros algoritmos que llaman software de mutación, y estos umbrales generalmente se establecen por encima del nivel de ruido de los datos NGS típicos, con suerte filtrando artefactos de bajo nivel. 2. Shimmer, SOAPsnv y VarDict aplican la prueba exacta de Fisher para lecturas de tablas de unión de 22 columnas (valores de referencia, valores de no referencia y valores de tumores, valores normales).

qSNP y RADIA aplican una serie de reglas heurísticas para etiquetar variantes somáticas observadas en tumores que son débiles o no observadas en valores normales. Si los datos de RNA-seq están disponibles para el mismo paciente, RADIA incluirá datos de expresión genética en el análisis conjunto para reducir aún más los falsos positivos.

El análisis de genotipo conjunto, SomaticSniper, FaSD-somatic, SAMtools, JointSNVMix2, Virmid, SNVSniffer, Seurat y CaVEMan utilizan este enfoque, asumiendo que tanto los tumores como los normales son diploides, y evalúan la posibilidad combinada. La llamada a mutaciones es una consecuencia inevitable de la inferencia genética. El núcleo de estos algoritmos es la probabilidad posterior del genotipo combinado, que se calcula mediante la regla de Bayes, es decir:

Entre ellos, GT y GN son genotipos tumorales, DT es el genotipo normal y DN es ambos tumor El genotipo es también el genotipo normal. La probabilidad del genotipo anterior p (GT, GN) puede depender de la tasa de SNP de todo el genoma, la tasa de mutación somática, la relación Ti-Tv, etc. La probabilidad conjunta p(DT, DN | GT, GN) de los datos se puede calcular con probabilidad binomial tratando las bases que cubren un sitio como ensayos independientes de Bernoulli, con la probabilidad de éxito dependiendo del genotipo y la tasa de error de secuenciación. Una vez que se infieren los genotipos vinculados, las mutaciones somáticas ocurren de forma natural. Las mutaciones y las mutaciones somáticas resumen la evidencia de mutaciones en términos de una "puntuación", que es esencialmente la probabilidad logarítmica transformada de que un tumor tenga el mismo genotipo que una persona normal, donde GT ∈ { AA, AC, AG, AT, CC , CG ,CT,GG,GT,TT}. Los loci con puntuaciones somáticas más altas tenían más probabilidades de tener genotipos diferentes en el tejido tumoral y normal y de ser identificados como posibles variantes somáticas. SAMtools sigue la misma estrategia, pero en lugar de utilizar probabilidades posteriores, utiliza la relación de probabilidad logarítmica como puntuación de mutación. JointSNVMix2, Virmid y SNVSniffer descomponen estos 10 epigenotipos en AA, AB y BB (a es un gen de referencia, b es un gen de no referencia), descomponiendo así los genotipos conjuntos en 33 tablas. La llamada de variante somática equivale a calcular p (Somática) = p (AA, AB) + p (AA, BB), la probabilidad de referencia pura de genes normales y heterocigotos o puros de no referencia en el tumor. Específicamente, JointSNVMix2 emplea un modelo bayesiano jerárquico para estimar las probabilidades de genotipo conjunto. Virmid trata los tumores como una mezcla de tejido normal y mutaciones somáticas, proporcionando una estimación conjunta del genotipo combinado y la proporción de tejido normal en el tumor. SNVsniffer emplea un enfoque híbrido de análisis heurístico y de genotipo conjunto. Las variantes somáticas de alta confianza en los análisis heurísticos se informan directamente, mientras que las variantes de baja confianza requieren pruebas adicionales de estimaciones conjuntas de probabilidad del genotipo. CaVEMan estima las probabilidades de genotipo utilizando el algoritmo de maximización de expectativas.

La suposición de diploidía puede ser demasiado simplista debido a la presencia de raros subclones heterogéneos en muestras tumorales. Para descubrir variaciones en genomas tumorales complejos, especialmente en subclones raros, algunas personas abandonaron la hipótesis diploide, establecieron un modelo de frecuencia de alelos conjuntos (fT, fN) y lo reemplazaron con un genotipo conjunto (GT, GN). Los métodos de análisis de frecuencia de alelos incluyen MuTect, LoFreq, EBCall, deepSNV, lololopicker y MuSE.

MuTect enmarca la llamada de variantes somáticas como un problema de selección de dos modelos. En el lado del tumor, se evaluaron y compararon dos modelos: el modelo M0 de tipo salvaje, que supone que todas las lecturas sin referencia surgen de artefactos técnicos, y el modelo mutante Mf, que supone que los alelos variantes están presentes en frecuencias desconocidas. El modelo con mejor ajuste se selecciona calculando el índice de verosimilitud logarítmica (puntuación LOD). Para sitios de mutación potenciales (valores LOD altos), generalmente se realiza otra selección de modelo, comparando el modelo generalizado M0 y el modelo heterocigoto M0.5.

loFreq, EBCall, deepSNV y lolololopicker formulan la variable llamada como un problema de prueba de hipótesis, donde la hipótesis nula es el tipo salvaje, la hipótesis alternativa es la variante y el estadístico de prueba es el número de lecturas observadas sin referencia nT.

LoFreq trata cada base como una prueba de Bernoulli independiente con una probabilidad de "éxito" diferente, donde el éxito se define como no referencia y la probabilidad de éxito está determinada por el puntaje de calidad. En este caso, el cumplimiento de nT está determinado por el puntaje de calidad. En este caso, nT sigue una distribución binomial de Poisson y el valor p se puede calcular como la probabilidad de observar más lecturas sin referencia que nT.

Dado que se sabe que las variantes somáticas están enriquecidas en ciertos puntos críticos, contextos de secuencia y regiones no codificantes, EBCall, deepSNV y LoLoPicker pueden estimar tasas de error específicas del sitio y, por lo tanto, pueden establecer una detección clara y más precisa. límite. En particular, deepSNV y lololopicker están diseñados para llamar a variantes de baja frecuencia utilizando datos de secuenciación específicos. Bajo la hipótesis nula, nT sigue una distribución binomial β y el valor p se calcula en consecuencia. En EBCall, los parámetros de distribución beta se obtienen de otras secuencias de muestras de control independientes. En deepSNV, los parámetros se estiman utilizando muestras tumorales y muestras normales.

LoLoPicker adopta una estrategia similar, pero con una modificación importante, que supone que la tasa de error en un sitio específico es fija. Las tasas de error específicas del sitio son particularmente útiles para la llamada de variantes en muestras de baja calidad, como muestras fijadas con formalina e incluidas en parafina (FFPE), porque estas muestras tienen tasas de error entre sitios más altas en comparación con las muestras frescas y más desequilibradas. Sin embargo, estimar las tasas de error específicas del sitio requiere clasificar una gran cantidad de muestras, lo que no siempre es factible.

MuSE trata los SNV somáticos como resultado del ADN y los modela con un proceso de Markov de tiempo continuo con el espacio de estados a, t, g, c. Las frecuencias de equilibrio de los alelos que no son de referencia se comparan con umbrales específicos de la muestra de conjuntos de datos públicos independientes.

Las estrategias basadas en un solo subtipo (a diferencia de las estrategias convencionales basadas en la posición) son ampliamente utilizadas por el software de llamada de variantes estructurales, que requieren combinar lecturas para reconstruir variantes largas. Esta también es una poderosa estrategia utilizada por Platypus, HapMuC, LocHap, FreeBayes y mutett2 para detectar SNV. Estos algoritmos leen una región en una colección local y generan tipos singleton candidatos, que pueden representarse como gráficos similares a De Bruijn. Al alinear cada lectura con un haplotipo y calcular el soporte de lectura, se puede estimar la probabilidad de cada haplotipo. Los llamadores de variantes basados ​​en haplotipos tienen ventajas en regiones con densidad de variantes porque no dependen del registro local, que es propenso a errores en regiones difíciles. Las personas que llaman basadas en haplotipos también brindan más información sobre la supervivencia de variantes. Para los llamadores basados ​​en haplotipos, el nuevo registro de indol ya no es válido porque la información de registro local original se descarta y las lecturas se ensamblan y realinean.

Los métodos de aprendizaje automático se están desarrollando rápidamente en el campo de la clasificación, y la llamada de variantes es esencialmente un problema de clasificación. Variant seq, SomaticSeq, snoop y BAYSIC son llamadores de variantes típicos para aplicar métodos de aprendizaje automático. Variant seq extrae características relevantes para cada sitio y entrena cuatro clasificadores (bosques aleatorios, árboles de regresión adaptativa bayesiana, máquinas de vectores de soporte y modelos logit) basados ​​en estas características y un conjunto de variantes somáticas "verdaderas". Luego, el clasificador entrenado se prueba en el conjunto de datos de prueba.

SNooPer entrena un clasificador de bosque aleatorio con datos de baja cobertura.

SomaticSeq sigue el mismo proceso de prueba de tren supervisado, pero se diferencia de MutationSeq o snoop en dos aspectos: primero, utiliza un algoritmo de refuerzo adaptativo para la clasificación.

En segundo lugar, es un llamador de variables integrado que requiere combinar llamadas de variables de otro software (MuTect, SomaticSniper, VarScan2, JointSNVMix2 y VarDict) como punto de partida y luego aplicar su propio clasificador para eliminar falsos positivos.

BAYSIC también es un llamador de variables establecidas que utiliza un modelo de clase latente no supervisada para combinar múltiples llamadas.