Wen2017 FASTmrEMMA
Los modelos lineales mixtos se han utilizado ampliamente en estudios de asociación de todo el genoma (GWAS), pero su aplicación en análisis GWAS multilocus aún no se ha explorado ni evaluado. Aquí, implementamos el modelo EMMA de efectos SNP estocásticos multilocus rápidos (FASTmrEMMA) para GWAS. El modelo se basa en efectos estocásticos del polimorfismo de un solo nucleótido (SNP) y nuevos algoritmos. Este algoritmo blanquea la matriz de covarianza y el ruido ambiental de la matriz poligénica K y especifica el número de valores propios distintos de cero como uno. El modelo primero selecciona todos los supuestos nucleótidos de rasgos cuantitativos (QTN) con un valor de P de 0,005 y luego los incluye en el modelo multilocus para una verdadera detección de QTN. Debido a la caracterización de múltiples locus, la corrección de Bonferroni fue reemplazada por criterios de selección menos estrictos. Los resultados de simulaciones y análisis de datos reales muestran que FASTmrEMMA es más potente en la detección de QTN y en el ajuste de modelos, tiene menos sesgo en la estimación del efecto QTN y supera a los métodos existentes de un solo gen y de múltiples locus, como Empirical Bayes. Requiere menos tiempo de ejecución para el solución de modelos lineales mixtos bajo relaciones progresivamente exclusivas (SUPER), asociación eficiente de modelos mixtos (EMMA), MLM comprimido (CMLM) y CMLM enriquecido (ECMLM). FASTmrEMMA proporciona una alternativa al GWAS multilocus.
Palabras clave: estudio de asociación de todo el genoma; modelo lineal mixto; modelo multilocus; efectos aleatorios
El estudio de asociación de todo el genoma (GWAS) se ha utilizado ampliamente en humanos, animales y plantas Disección genética de rasgos cuantitativos en genética, especialmente en combinación con el resultado de tecnologías de secuenciación del genoma. El método GWAS más utilizado es el método del modelo lineal mixto (MLM), ya que demuestra la eficacia de corregir la inflación a partir de muchos efectos genéticos pequeños (antecedentes poligénicos) y controlar el sesgo de estratificación de la población. Por ejemplo, los métodos de modelos estocásticos reducen los efectos estimados de los SNP a cero. Sin embargo, Goddard et al. [25] no proporcionaron un algoritmo computacional eficaz para estimar el efecto del etiquetado.
En este artículo, describimos un nuevo método que permite un escaneo rápido de cada marcador de efecto aleatorio en todo el genoma mediante la construcción de una transformación matricial nueva y rápida para las varianzas de los tres componentes. Luego, todos los QTN putativos con un valor de P de 0,005 se colocaron en un modelo genético de locus múltiples y estos efectos de QTN se estimaron mediante EM Empirical Bayes (EMEB) [28] para una verdadera identificación de QTN. Este nuevo método, denominado Fast Multi-locus Random SNP Effect EMMA (FASTmrEMMA), se validó analizando datos reales de Arabidopsis [29] y una serie de estudios de simulación, y se comparó con otros métodos, como E-BAYES (Multigene locus model). ) [30], SUPER, EMMA, ECMLM y CMLM (modelo de locus único).