Proceso general para el análisis unicelular completo: control de calidad
Las bibliotecas de baja calidad en los datos de scRNA-seq pueden provenir de una variedad de fuentes, como daño celular durante la disociación o fallas en la preparación de la biblioteca (como una transcripción inversa o una amplificación por PCR ineficaces). Estas bibliotecas a menudo se caracterizan por recuentos totales bajos, pocos genes expresados y una alta proporción de mitocondrias o "células" de pico. Estas bibliotecas de baja calidad son problemáticas porque pueden generar resultados engañosos en los análisis posteriores:
1. Crean poblaciones celulares distintas, lo que complica la interpretación de los resultados. Las razones más obvias son el aumento de las proporciones mitocondriales o el enriquecimiento del ARN nuclear después de una lesión celular. En el peor de los casos, las bibliotecas de baja calidad generadas a partir de diferentes tipos de células se agrupan en función de las similitudes en los perfiles de expresión inducidos por daños, creando así artificialmente estados o trayectorias intermedias entre subpoblaciones que de otro modo serían distintas. Además, las bibliotecas muy pequeñas también pueden formar sus propios grupos debido a los cambios en los valores promedio después de la transformación.
2. Distorsionarán las características de la heterogeneidad de los conglomerados durante la estimación de la varianza o el análisis de componentes principales. Los primeros componentes principales capturan diferencias cualitativas en lugar de diferencias biológicas, reduciendo así los efectos de reducción de escala. Asimismo, los genes con mayor variación también se verán afectados por las diferencias entre células de baja y alta calidad. El ejemplo más obvio es una biblioteca de baja calidad con recuentos muy bajos, en cuyo caso la normalización amplifica la variación aparente de genes en la biblioteca que tienen recuentos distintos de cero.
3. Contienen genes que parecen estar fuertemente "regulados al alza" debido al escalamiento activo al normalizar bibliotecas pequeñas. Esto es más problemático para las transcripciones contaminantes que están presentes en niveles bajos pero constantes en todas las bibliotecas (por ejemplo, bibliotecas de soluciones ambientales). Agregar escala en bibliotecas de baja calidad convierte los recuentos de estas transcripciones en decimales con valores de expresión normalizados más grandes, lo que resulta en una regulación positiva significativa en comparación con otras células. Esto puede resultar engañoso porque los genes afectados suelen ser biológicamente sensibles pero en realidad se expresan en otra subpoblación.
Para evitar (o al menos mitigar) estos problemas, necesitamos eliminar estas celdas al inicio del análisis. Este paso a menudo se denomina control de calidad (QC) a nivel celular. (Aquí usaremos "biblioteca" y "celda" indistintamente, aunque la distinción se vuelve importante cuando se trabaja con datos basados en gotas). Demostramos cómo utilizar el pequeño conjunto de datos scRNA-seq de A. T. Lun et al.
Utilizamos varias métricas de control de calidad comunes para identificar células de baja calidad en función de perfiles de expresión. A continuación, controlaremos la calidad de estas métricas en función de las lecturas de los datos SMART-seq2, pero el mismo proceso se aplica a los datos UMI generados por otras técnicas como MARS-seq y métodos basados en gotas.
1. El tamaño de la biblioteca se define como la suma de los recuentos totales de todas las características relevantes en cada celda. Aquí, consideramos los rasgos relevantes como genes endógenos. Las bibliotecas de células más pequeñas tienen menor calidad debido a la pérdida de ARN debido a la lisis celular o a una captura y amplificación deficientes del ADNc en algún momento durante la preparación de la biblioteca.
2. El número de CARACTERÍSTICAS expresadas por cada célula se refiere al número de genes endógenos distintos de cero en la célula. Es probable que cualquier célula que exprese menos genes sea de mala calidad porque no se han capturado con éxito diferentes poblaciones de especies transcritas.
3. Calcule el "número de lecturas asignadas a transcripciones de picos" en relación con el "número total de lecturas para todas las FUNCIONES (incluidos los picos) por celda". Dado que se debe agregar la misma cantidad de ARN añadido a cada célula, cualquier enriquecimiento en los números de pico es un signo de pérdida de ARN endógeno.
Como alternativa, algunas personas pueden preferir utilizar la función addPerCellQC(). Esta función calcula las estadísticas de control de calidad para cada celda y las agrega a colData del objeto SingleCellExperiment, lo que nos permite guardar toda la información relevante en un objeto para su posterior procesamiento.
La suposición clave aquí es que las métricas de control de calidad son independientes del estado biológico de cada célula. Se supone que las diferencias (por ejemplo, tamaño de grupo bajo, proporción mitocondrial alta) se deben a factores técnicos más que a procesos biológicos, lo que significa que la eliminación posterior de células no afectará los procesos biológicos en los análisis posteriores.
Las violaciones graves de esta suposición pueden provocar la pérdida de tipos de células, como un bajo contenido de ARN o un alto número de mitocondrias en el propio sistema experimental. Podemos utilizar otras herramientas de diagnóstico para examinar tales fenómenos (que se explican más adelante en el análisis avanzado).
La forma más sencilla de identificar células de baja calidad es aplicar un umbral en la métrica de control de calidad. Por ejemplo, podemos considerar que las unidades son de baja calidad si el tamaño de la biblioteca es inferior a 100.000 lecturas; si hay menos de 5.000 genes expresados si la tasa de inserción de picos supera el 10% o si la fracción mitocondrial supera el 10%;
Aunque simple, esta estrategia requiere una experiencia considerable para determinar los umbrales apropiados para cada protocolo experimental y sistema biológico. Los umbrales basados en datos de recuento de lecturas no se aplican a datos basados en UMI y viceversa. Las diferencias en la actividad mitocondrial o el contenido total de ARN requieren un ajuste continuo de los umbrales mitocondrial y de pico, respectivamente, para diferentes sistemas biológicos. De hecho, incluso usando el mismo método y sistema, el umbral apropiado puede variar de una célula a otra debido a las diferencias en la eficiencia de captura de ADNc y la profundidad de secuenciación para cada célula.
Para obtener un umbral adecuado, asumimos que la mayor parte del conjunto de datos consta de celdas de alta calidad. Luego identificamos células con anomalías en varias métricas de control de calidad según la desviación absoluta mediana (MAD) de cada métrica de la mediana en todas las celdas. Específicamente, un valor se considera atípico si su desviación absoluta de la mediana es superior a 3 MAD en la dirección del "problema". Este filtro retendrá el 99% de los valores no atípicos que siguen una distribución normal.
Para los datos de 416B, determinamos el tamaño del grupo de células transformadas logarítmicamente por debajo de la mediana de 3 MAD. Cuando se utiliza type="lower", una transformación logarítmica mejora la resolución de valores más pequeños. Específicamente, la transformación logarítmica asegura que el umbral no sea negativo, ya que los valores negativos no tienen sentido para matrices no negativas. Además, es común que las distribuciones de tamaño de biblioteca exhiban una cola derecha más pesada. La transformación logarítmica evita la inflación del MAD, lo que afecta la detección de anomalías en la cola izquierda. (
Hicimos lo mismo para los genes expresados transformados logarítmicamente
isOutlier() también devuelve los umbrales de filtrado exactos para cada métrica en los atributos del vector de salida. Estos son útiles para Es útil para comprobar si los umbrales seleccionados automáticamente son apropiados.
Identificamos valores atípicos para métricas basadas en escalas que tienen la misma funcionalidad, pero se diferencian de las dos métricas anteriores al mostrar una cola derecha más pesada. la cola derecha contiene las supuestas células de baja masa, por lo que no hacemos ninguna transformación para reducir la cola; en lugar de eso, queremos identificar las células de la cola como valores atípicos más grandes (aunque esto es teóricamente posible. Un umbral sin sentido por encima del 100% se obtiene, pero esto es raro y por lo tanto no es importante en la práctica)
Para las células con anomalías en cualquiera de estas métricas, serán tratadas como células de baja calidad y descartadas.
Alternativamente, todo el proceso se puede realizar en un solo paso usando la función QuickPerCellQC().
Con esta estrategia, se dará el umbral y la distribución de los valores del indicador. De esta manera, el programa de control de calidad puede adaptarse a cambios en la profundidad de secuenciación, la eficiencia de captura de ADNc, el contenido mitocondrial, etc., sin la intervención del usuario o experiencia previa. Sin embargo, esto requiere algunas suposiciones, que se discutirán en detalle a continuación.
La detección de valores atípicos supone que la mayoría de las células son de calidad aceptable, lo que a menudo se justifica mediante una inspección visual de la integridad celular en algunos casos (por ejemplo, en microplacas de células). baja calidad (inaceptablemente baja), entonces los umbrales adaptativos obviamente fallarán ya que no logran eliminar la mayoría de las células. La aceptabilidad o no depende, por supuesto, del ojo del espectador. Cambiará a medida que cambie el entorno; por ejemplo, las neuronas. es notoriamente difícil de desmontar y, por lo general, mantenemos células en conjuntos de datos de scRNA-seq neuronales con ciertas métricas de control de calidad, mientras que en condiciones más estrictas, como las células madre embrionarias, esta métrica de control de calidad es inaceptable.
Otra suposición. Lo mencionado anteriormente es que la métrica de control de calidad es independiente del estado biológico de cada célula, lo cual es más relevante en poblaciones de células altamente heterogéneas. Puede violarse porque algunos tipos de células naturalmente tienen menos ARN total o más mitocondrias.
Incluso si no hay problemas técnicos con la captura o secuenciación, dichas células pueden considerarse atípicas y eliminarse. El uso de MAD alivia este problema hasta cierto punto al tener en cuenta la variabilidad biológica en las métricas de control de calidad. Las métricas atípicas entre las células de alta calidad deberían tener una mayor variabilidad, lo que aumentará la MAD y reducirá la posibilidad de eliminar erróneamente tipos de células específicos (a expensas de reducir la capacidad de eliminar células de baja calidad).
A menudo, estas suposiciones son razonables o su violación tiene poco efecto en las conclusiones posteriores. No obstante, es útil tener en cuenta estos supuestos al interpretar los resultados.
Los estudios más complejos pueden implicar lotes de células generados utilizando diferentes parámetros experimentales, como la profundidad de secuenciación. En este caso, la estrategia adaptativa debe aplicarse a cada lote por separado. Calcular la mediana y la MAD a partir de una distribución de mezcla que contiene múltiples lotes de muestras casi no tiene sentido. Por ejemplo, si un lote tiene una cobertura de secuenciación menor que otros lotes, arrastra hacia abajo la mediana y hace que la MAD sea más grande. Esto reducirá la idoneidad del umbral adaptativo para otros lotes.
Si cada lote está representado por su propio SingleCellExperiment, la función isOutlier() se puede aplicar directamente a cada lote, como se muestra arriba. Sin embargo, si las celdas de todos los lotes se combinan en un SingleCellExperiment, se debe utilizar el parámetro lote = para garantizar que se identifiquen los valores atípicos en cada lote. De esta manera, isOutlier() puede adaptarse a diferencias sistemáticas en las métricas de control de calidad entre lotes.
Ilustraremos este punto nuevamente utilizando el conjunto de datos 416B, que contiene dos factores experimentales: el factor original y el estado inducido por el oncogén. Combinamos estos factores y usamos quickPerCellQC() en el parámetro lote = de isOutlier(). Esto dará como resultado la eliminación de más células porque (i) las diferencias sistemáticas en la profundidad de secuenciación entre lotes y (ii) las diferencias en el número de genes de expresión inducida por oncogenes ya no inflarán la MAD.
No obstante, el uso de lote = incluye una suposición más sólida de que la mayoría de las células en cada lote son de alta calidad. Si falla un lote completo de células, la detección de anomalías no servirá como filtro de control de calidad adecuado para ese lote de células. Por ejemplo, en el conjunto de datos de páncreas humano de Grun et al., dos lotes contenían una proporción significativa de células supuestamente dañadas con mayor contenido de ERCC que los otros lotes (Fig. 1). Esto aumentaría los valores medianos y MAD de estos lotes, lo que resultaría en la incapacidad de eliminar células supuestas de baja calidad. En este caso, es mejor calcular la mediana y la DMA de **** de otros lotes y utilizar estas estimaciones para obtener umbrales de filtrado adecuados para las celdas del lote en cuestión, como se muestra a continuación.
Para identificar lotes problemáticos, una regla general útil es encontrar lotes con umbrales de control de calidad anormales en comparación con otros lotes. La suposición aquí es que la mayoría de los lotes consisten principalmente en células de alta calidad, por lo que en un lote "típico" los umbrales deben seguir algún tipo de distribución unimodal. Si observamos un umbral extremadamente alto para un lote, podríamos sospechar que contiene una gran cantidad de células de baja calidad, inflando así el MAD de cada lote.
Si no podemos asumir que la mayoría de los lotes contienen la mayoría de células de alta calidad, entonces se eliminan todas las conjeturas; debemos volver a seleccionar un umbral arbitrario y esperar lo mejor.
Otra estrategia es identificar valores atípicos en un espacio de alta dimensión basándose en métricas de control de calidad para cada celda. Usamos métodos en robustbase para cuantificar los "valores atípicos" de cada celda en función de sus métricas de control de calidad, y luego usamos isOutlier() para identificar celdas de baja calidad con niveles altos de valores atípicos.
Este método y los métodos relacionados (como la detección de anomalías basada en PCA y las máquinas de vectores de soporte) proporcionan una mayor capacidad para distinguir células de baja calidad de células de alta calidad porque pueden aprovechar muchas métricas de control de calidad. modelo. Sin embargo, esto tiene el costo de cierta interpretabilidad, ya que el motivo para eliminar una celda específica puede no siempre ser obvio.
En aras de la exhaustividad, observamos que los valores atípicos también pueden identificarse mediante perfiles de expresión genética en lugar de métricas de control de calidad.
Consideramos que esta es una estrategia arriesgada porque elimina células de alta calidad de una población de células raras.
Es una buena práctica examinar la distribución de las métricas de control de calidad (Figura 2) para identificar posibles problemas. En el mejor de los casos, encontramos una distribución normal que justifica el umbral de 3 MAD utilizado en la detección de valores atípicos. Otros modelos celulares sugieren que las métricas de control de calidad pueden estar relacionadas con un determinado estado biológico, lo que podría provocar la pérdida de diferentes tipos de células durante la filtración. O la preparación de la biblioteca de subpoblaciones celulares es inconsistente, lo cual es común en los protocolos basados en placas. Como se muestra en la Figura 1 anterior, se pueden identificar rápidamente lotes de diferencias sistemáticas en cualquier métrica para una mayor resolución de problemas o una limpieza completa.
Otro método de diagnóstico útil es trazar el índice de recuento mitocondrial frente a alguna otra métrica de control de calidad. El propósito de esto es confirmar que no hay células con recuentos totales y mitocondriales altos para garantizar que no estemos eliminando inadvertidamente células metabólicamente activas y de alta calidad (como los hepatocitos). Lo demostramos utilizando grandes datos experimentales del cerebro de rata; en este caso, no observamos ningún punto en la esquina superior derecha de la Figura 3 que pueda corresponder a células metabólicamente activas y no dañadas.
Encontramos correlaciones débiles entre todas estas métricas, lo que puede reflejar el papel potencial del daño celular****. Esta débil correlación nos motiva a utilizar múltiples métricas para capturar diferentes aspectos de la calidad técnica. Por supuesto, la desventaja es que estas métricas también pueden representar diferentes aspectos de la biología, lo que aumenta el riesgo de descartar tipos de células completos.
Después de identificar las celdas de baja calidad, podemos optar por eliminarlas o marcarlas. La eliminación es la opción más sencilla y se puede lograr configurando un SingleCellExperiment por columna.
La mayor preocupación práctica durante el control de calidad es si se descarta inadvertidamente una población celular completa. Dado que las métricas de control de calidad nunca son completamente independientes del estado biológico, siempre existe el riesgo de que esto suceda. Podemos saber si un tipo de célula se pierde observando las diferencias sistemáticas en la expresión genética entre las células descartadas y las retenidas. Para demostrar esto, calculamos los recuentos medios de los grupos de células descartadas y retenidas en el conjunto de datos 416B y calculamos el cambio entre las medias del grupo de células.
Si un determinado tipo de célula se enriquece en el conjunto de células desechadas, la expresión del gen marcador correspondiente aumentará. En la Figura 4, no se encontraron sistemas significativos de regulación positiva de genes en el grupo de descarte, lo que indica que el paso de control de calidad no filtró inadvertidamente los tipos de células en el conjunto de datos 416B.
A modo de comparación, consideremos los pasos de control de calidad para el conjunto de datos PBMC de 10X Genomics. No utilizaremos ningún método basado en valores atípicos, sino que aplicaremos un umbral fijo arbitrario al tamaño de la biblioteca para filtrar las celdas. Específicamente, eliminaremos todas las bibliotecas con un tamaño de biblioteca inferior a 500.
En la Figura 5, hay una población única en la biblioteca eliminada, un conjunto de genes que están fuertemente regulados positivamente en la pérdida. Estos incluyen PF4, PPBP y SDPR, que (¡alerta de spoiler!) indican la presencia de una población de plaquetas que alt.discover descarta.
Otro enfoque consiste en etiquetar las células de baja calidad como células de baja calidad y conservarlas para su análisis posterior. El propósito de esto es permitir la formación de grupos de células de baja masa para luego identificarlos e ignorarlos al interpretar los resultados. Este enfoque evita descartar tipos de células con valores métricos de control de calidad deficientes, brindando así al usuario la oportunidad de decidir si dichos grupos de células representan un verdadero estado biológico.
La desventaja es que traslada la carga del control de calidad a la interpretación de las poblaciones celulares, lo que ya es un cuello de botella en el análisis de datos de scRNA-seq. De hecho, si no confiamos en las métricas de control de calidad, no tenemos que diferenciar entre tipos de células reales y células de baja calidad, no sólo en base a genes marcadores, lo cual no es fácil, ya que estas últimas tienden a " expresar"genes interesantes. Retener celdas de baja calidad también afecta la precisión del modelado de varianza, por ejemplo, al requerir el uso de más PC para compensar el hecho de que las primeras PC estaban impulsadas por diferencias entre celdas de baja calidad y otras celdas.
Para análisis de rutina, recomendamos realizar una única limpieza de forma predeterminada para evitar complicaciones causadas por células de baja calidad.
De esta forma, la mayoría de las características de la estructura del grupo no se verán afectadas, al menos no su eficacia. Después de completar el análisis inicial, si hay alguna duda sobre los tipos de células descartadas, se puede realizar un nuevo análisis más exhaustivo marcando sólo las células de baja calidad. Esto permite recuperar tipos de células con bajo contenido de ARN, altas proporciones mitocondriales, etc., que sólo deben interpretarse si el análisis preliminar "llena los vacíos".