Red de conocimiento informático - Aprendizaje de código fuente - Lectura de literatura sobre EMM: Transcriptómica unicelular en el cáncer: desafíos y oportunidades computacionales

Lectura de literatura sobre EMM: Transcriptómica unicelular en el cáncer: desafíos y oportunidades computacionales

Conozca un artículo de revisión: Transcriptómica unicelular en cáncer: desafíos y oportunidades computacionales, publicado en Experimental & Molecular Medicine, DOI: WORK:

Factorización matricial con PCA, CCA, NMF, etc. Comparado con métodos donde podemos examinar la contribución de cada gen a cada factor, el espacio oculto obtenido mediante métodos de aprendizaje profundo puede no ser tan fácil de interpretar. Esto genera preocupaciones sobre el sobreajuste de características técnicas u otras variaciones no deseadas en los datos. Por lo tanto, se necesitan más esfuerzos para demostrar que los espacios ocultos de las redes neuronales profundas reflejan patrones biológica y clínicamente relevantes en diferentes tejidos cancerosos.

En el análisis integrado de conjuntos de datos sobre cáncer de múltiples pacientes, debido a las diferencias en la heterogeneidad de las células tumorales y no tumorales entre los pacientes, las células no tumorales pueden agruparse por tipo de célula, mientras que las células tumorales se pueden separar por paciente. .

Las células tumorales a menudo muestran cambios extensos en diversas vías bioquímicas y procesos cancerígenos, y pueden ser transcripcionalmente completamente diferentes de las células no tumorales, por lo que pueden distinguirse mediante análisis de conglomerados. Sin embargo, anotar estas subpoblaciones de células con células tumorales o no tumorales es un desafío. En algunos cánceres, las células tumorales se pueden distinguir de las no tumorales mediante la detección de diferentes genes marcadores o combinaciones de genes marcadores. Por ejemplo, las células de mieloma múltiple expresan antígenos CD38+/CD138+ como marcadores, y un nivel alto de CD138 (SDC1) se puede detectar simultáneamente mediante * * en los datos de scRNA-seq.

Sin embargo, cuando los genes se expresan pero no se detectan, los datos de scRNA-seq pueden verse afectados por muchas técnicas, como el abandono, o son muy escasos, lo que hace que esta detección basada en marcadores sea propensa a la metaclasificación. a falsos negativos. Además, para algunos otros cánceres, los genes marcadores por sí solos no son suficientes para distinguir las células tumorales de las no tumorales. Por ejemplo, en un estudio sobre el carcinoma ductal de páncreas, el análisis de conglomerados produjo múltiples grupos de células que se identificaron como componentes vasculares basándose en la expresión de genes marcadores. Sin información adicional, este análisis de conglomerados no puede determinar el estado maligno de los grupos de componentes vasculares identificados. Aunque los programas expresados ​​de manera aberrante, como la regulación positiva de las vías relacionadas con el cáncer (por ejemplo, angiogénesis y proliferación) pueden involucrar poblaciones celulares específicas, la anotación basada únicamente en la expresión de la vía puede ser ambigua. Porque las células tumorales también pueden expresar genes y vías asociadas con células no tumorales típicas de formas inesperadas. Por lo tanto, además de la expresión de genes o vías marcadores, a menudo se necesita evidencia más confiable para distinguir las células tumorales de las no tumorales.

Por esta razón, se han desarrollado métodos computacionales para identificar distorsiones a nivel de ADN directamente a partir de datos de scRNA-seq. Se pueden inferir grandes cambios en el número de copias (CNV) comparando el perfil de expresión génica promedio de las células tumorales con CNV con referencias de tejido normal apropiadas. La agrupación sistemática con un sesgo de amplitud de expresión normalizado suave puede distinguir las células con CNV de las células diploides normales. Sin embargo, la confiabilidad de esta inferencia CNV basada en la expresión depende de la coincidencia entre el perfil de expresión del cáncer y la referencia normal, y se necesitan referencias normales apropiadas para garantizar que el sesgo de expresión observado sea el resultado de cambios subyacentes en el número de copias y no de plataforma o Resultados de diferencias específicas del tipo de célula. Determinar valores de referencia normales apropiados puede resultar muy difícil si se desconoce el origen del tipo de célula cancerosa. Otro método computacional para identificar CNV se basa en frecuencias alélicas variantes (VAF) de polimorfismos de un solo nucleótido (SNP) de línea germinal heterocigotos. Los cambios en el número de copias distorsionan los VAF observados en los datos de scRNA-seq, con la presencia de eliminaciones que conducen a la pérdida continua del alelo faltante y la amplificación que conduce a un aumento en la abundancia del alelo amplificado. Debido a que los métodos basados ​​en alelos dependen de una alta cobertura de muchos sitios SNP, los datos de los protocolos scRNA-seq que pueden lograr una cobertura completa de la transcripción son los más adecuados para estos análisis (p. ej., Smart-seq2).

Algunos cánceres no tienen fragmentos de CNV tan grandes. Otros fragmentos más pequeños de cambios a nivel de ADN, como mutaciones puntuales somáticas, también pueden identificarse a partir de datos de scRNA-seq y usarse para diferenciar células tumorales. Sin embargo, la detección de mutaciones puntuales somáticas a partir de datos de scRNA-seq se limita a mutaciones en exones de sitios con suficiente cobertura de lectura.

Algunas tecnologías nuevas, como la amplificación dirigida al sitio basada en la reacción en cadena de la polimerasa cuantitativa o la detección de mutaciones dirigida al sitio, pueden detectar de manera sólida estados de mutación puntual seleccionados directamente a partir de datos de scRNA-seq o junto con ellos. También deben considerarse los falsos positivos debidos a la edición de ARN.

Además de distinguir las células tumorales de las no tumorales, la inferencia CNV y la llamada de mutación somática también se pueden utilizar para distinguir diferentes subclones tumorales a nivel genético.

Además de caracterizar la heterogeneidad del microambiente tumoral, se han desarrollado métodos computacionales para inferir la comunicación entre diferentes tipos celulares. Dado que el método scRNA-seq requiere la preparación de suspensiones unicelulares, se pierde el contexto espacial de la disposición celular en el tejido original. Por lo tanto, los métodos computacionales para inferir la comunicación intercelular a partir de datos de scRNA-seq requieren evidencia adicional después de perder información sobre la proximidad espacial de las células y, generalmente, se basan en comparar genes receptores en un tipo de célula con ligandos en otros niveles de expresión genética.

Centrarse únicamente en conjuntos de datos de scRNA-seq puede limitar la eficiencia estadística debido al número limitado de pacientes y muestras analizadas. Para aprovechar la mayor disponibilidad de muestras de secuencias de ARN de gran volumen, se desarrolló un método de deconvolución para inferir distintas células inmunes y la proporción de células estromales.

Aunque las técnicas de análisis del transcriptoma unicelular, como scRNA-seq, proporcionan métricas moleculares de todo el transcriptoma con resolución unicelular, estas métricas, en última instancia, representan una única instantánea en el tiempo. Debido a la naturaleza continua de la evolución del cáncer y, más ampliamente, del desarrollo celular, esta falta de información temporal es muy limitante para el estudio del cáncer y otros procesos dinámicos. Si bien scRNA-seq proporciona una instantánea de cada célula en un único momento, las instantáneas de muchas células que representan una variedad de etapas evolutivas nos permiten secuenciar estas células en pseudotiempo y trayectorias.

Si bien los métodos de inferencia de trayectoria pueden posicionar células a lo largo de algunos ejes, los métodos actuales no pueden utilizar la inferencia de trayectoria para evaluar la dinámica temporal subyacente de la tasa o dirección de progresión. El análisis de la tasa de ARN puede proporcionar direccionalidad a las trayectorias inferidas. El análisis de la tasa de ARN utiliza la proporción relativa de lecturas intrónicas (es decir, no empalmadas, inmaduras) y exónicas (es decir, empalmadas, maduras) en datos de scRNA-seq para inferir la tasa de cambio en la abundancia de la transcripción, estimando así el estado transcripcional futuro de la célula. . Sin embargo, es necesario descartar la interferencia de un empalme alternativo anormal que pueda resultar de mutaciones en la maquinaria de empalme, regulando así de manera diferencial la retención de intrones.