Detección de señales de chips genéticos y procesamiento de datos (versión detallada)
?Después de combinar las muestras y las sondas marcadas con fluorescencia en un biochip, se debe utilizar un equipo de escaneo para convertir los resultados del chip en datos de imágenes que puedan analizarse y procesarse.
1. Análisis de imágenes
2. Preprocesamiento de datos
Proceso específico:
1. La excitación láser produce ADN que contiene etiquetas fluorescentes El fragmento emite fluorescencia
2. El escáner láser o el microscopio de enfoque láser recoge la señal del punto de hibridación
3. El software analiza el procesamiento de imágenes y datos
> ?El propósito del biochip La detección consiste en convertir cambios débiles en macromoléculas biológicas invisibles en señales de imágenes digitales visibles mediante el procesamiento integral de tecnologías multidisciplinarias como biología, química, óptica, electrónica y software, a fin de lograr la amplificación, mejora y visualización de señales para la investigación científica.
Composición del escáner: incluye sistema de hardware y sistema de software
Señal: al detectar la cantidad digital de salida en conjunto, corresponde a los datos de análisis experimentales reales.
Ruido: La salida digital del instrumento, correspondiente a datos de análisis no experimentales como fluorescencia de fondo, corriente oscura y ruido de impacto.
Relación señal-ruido: Relación señal-ruido durante la detección de microarrays.
1. Extracción de datos
2. Logaritmización
3. Filtrado de sondas
4. Finalización de valores faltantes
p>
5. Estandarización
6. Anotación de sonda
7. Filtrado de genes
Señal de chip de escaneo de fluorescencia
General En términos generales, el grupo experimental suele ser una muestra de enfermedad y el grupo de control es una muestra normal
. ¿El grupo de control es una muestra normal?
¿CH1I? Valor de señal del grupo experimental
CH1B ¿Valor de fondo del grupo experimental
CH2I? grupo de control
CH2B? Valor de fondo del grupo de control
Cálculo de expresión de matriz de perfil de expresión:
Relación = (CH1I-CH1B)/(CH2I- CH2B)
Formato de datos de microarrays
El siguiente es el formato general de la matriz de perfil de expresión: cada columna es el valor de expresión de todos los genes en una muestra, y cada fila es el valor de expresión de un gen específico en todas las muestras
Los datos originales se aproximan a una distribución normal después de la transformación sesgada y lognormal
Se eliminan los datos con niveles de expresión negativos o muy pequeños o los datos obviamente ruidosos.
El nivel de expresión es negativo o datos muy pequeños o datos obviamente ruidosos. Contaminación de la señal causada por factores físicos (arañazos, huellas dactilares, etc.)
Motivos: baja eficiencia de hibridación, problema de mancha.... ..
Problemas prácticos: colas de cometas, fondo alto, problemas de puntos de estancamiento, etc.
Eliminación no aleatoria (demasiado o muy poco)
Eliminación aleatoria (con El nivel de expresión es irrelevante)
1. Elimina las filas y columnas correspondientes
2. Simplemente completa los espacios en blanco 0/1
3. Muestra promedio promedio gen promedio
4.k-vecinos-más-cercanos
Debido a que hay errores sistemáticos, es necesario estandarizar el chip
Variantes de interés
Variación biológica verdadera
Genes expresados de manera diferente
Variación confusa
Variación introducida durante el experimento
Tinción de muestras, producción de chips y microarrays Errores sistemáticos introducidos durante el proceso de escaneo,
Fuentes de errores sistemáticos
Propiedades físicas de los tintes
Eficiencia de unión de los tintes
p > Preparación de sondas
Proceso de hibridación entre sondas y muestras
Proceso de escaneo durante la toma de datos
Diferencias entre diferentes chips
Condiciones de hibridación de diferentes chips
Los genes expresados de forma estable se utilizan como referencia para el proceso de estandarización
Los genes expresados de forma estable se utilizan como referencia para el proceso de estandarización
Expresión estable de forma estable los genes expresados se utilizan como referencias para el proceso de normalización
Los genes expresados de forma estable se utilizan como referencias para el proceso de normalización
Los genes expresados de forma estable se utilizan como referencias para el proceso de normalización
Genes expresados de forma estable Como referencia para el proceso de normalización
geneid<-raw_geneid #Reemplazar nombres de filas con símbolos de genes
genesymbol<-rownames(gene_exp_matrix)
gene_exp_matrix3<-cbind(genesymbol , la columna gene_exp_matrix#Gene_symbol es el nombre de la fila del perfil de expresión, fusionado con el perfil de expresión
write.table(gene_exp_matrix3,file="genesymbol_exp.txt",sep ="\t",row.names=F, quote=F)#Escribir matriz de espectro de expresión de símbolos genéticos
Detección genética
Detección de fluctuación de varianza
Mínimo La detección de cambios de genes con pequeña variación se puede realizar mediante este método de eliminación
Los criterios de filtrado aquí se basan en las siguientes condiciones: la proporción del número de genes cuya expresión cambia en un pliegue específico en comparación con su expresión media en todos los microarrays al número total de genes (por lo que aquí el usuario debe especificar dos valores, escala y múltiple).
Menos del x% de los niveles de expresión son mayores o iguales a y veces la mediana (20%, 1,5)
La mayor parte del contenido proviene de PPT docente y Bioinformática 2.ª edición. en este resumen