¿Cuáles son las aplicaciones de la bioinformática?
1. Secuenciación y Alineamiento de Secuencias
La secuenciación es la base y principal fuente de datos de la bioinformática, que pueden ser datos humanos u otros datos.
El problema básico del alineamiento de secuencias es comparar la similitud o disimilitud de dos o más secuencias de símbolos. Desde la intención original de la biología, este problema incluye los siguientes significados: reconstruir a partir de fragmentos de secuencia superpuestos la secuencia completa del ADN estructural. mapear el almacenamiento de datos de sonda en diversas condiciones experimentales, recorrer y comparar secuencias de ADN en la base de datos, comparar la similitud de dos o más secuencias y buscar en la base de datos secuencias y subsecuencias relacionadas para buscar el patrón de producción continua de nucleótidos y encontrar componentes de información. En secuencias de proteínas y ADN, el alineamiento de secuencias tiene en cuenta las características biológicas de las secuencias de ADN, como las inserciones y eliminaciones que ocurren localmente en la secuencia (las dos primeras se denominan indel) y la sustitución, se obtiene la función objetivo de la secuencia. La suma ponderada de la distancia mínima o la similitud máxima de los conjuntos de mutaciones entre secuencias. Los métodos de alineación incluyen alineación global, alineación local, penalización por brecha generacional, etc. Los algoritmos de programación dinámica se utilizan a menudo para alinear dos secuencias. la longitud de la secuencia es pequeña, sin embargo, para secuencias de genes masivas (como secuencias de ADN humano de hasta 109 pb), este método no es adecuado e incluso los algoritmos con complejidad lineal son difíciles de trabajar. Por lo tanto, la introducción de métodos heurísticos es. Inevitablemente, los famosos algoritmos BALST y FASTA y los métodos mejorados correspondientes se desarrollaron a partir de esta propuesta anterior.
2. Comparación y predicción de la estructura de proteínas
El problema básico es comparar similitudes o diferencias. de la estructura espacial de dos o más moléculas de proteínas La estructura y función de las proteínas están estrechamente relacionadas. Generalmente se cree que las estructuras de proteínas con funciones similares son generalmente similares. Las proteínas son cadenas largas compuestas de aminoácidos. 1000 ~ 3000 AA (Aminoácidos). Las proteínas tienen una variedad de funciones, como enzimas, almacenamiento y transporte de sustancias, transmisión de señales, anticuerpos, etc. La secuencia de aminoácidos determina inherentemente la estructura tridimensional de la proteína. Generalmente se cree que las proteínas tienen cuatro estructuras diferentes. Las razones para estudiar la estructura y la predicción de las proteínas son: en medicina, puede comprender las funciones de los organismos, encontrar objetivos para acoplar medicamentos, en agricultura, obtener ingeniería genética de mejores cultivos, y en la industria, para utilizar la síntesis de enzimas. La razón para comparar directamente las estructuras de las proteínas es que la estructura 3D de una proteína se conserva de manera más estable en la evolución que su estructura primaria, y también contiene más información que la secuencia AA. estudiar la estructura 3D de una proteína es La secuencia de aminoácidos intrínseca tiene una correspondencia uno a uno con la estructura 3D (no necesariamente cierta) y puede explicarse físicamente por la energía mínima Predecir la estructura de proteínas desconocidas basándose en la observación. y resumir las reglas estructurales de proteínas con estructuras conocidas (los métodos de modelado de homología y subprocesos pertenecen a esta categoría. El modelado de homología se utiliza para encontrar estructuras de proteínas con alta similitud (más del 30% de aminoácidos idénticos), mientras que este último se utiliza. para comparar diferentes estructuras de proteínas en familias evolutivas. Sin embargo, el estado actual de la investigación sobre la predicción de la estructura de las proteínas está lejos de satisfacer las necesidades reales.
3. Investigación sobre identificación de genes y análisis de regiones no codificantes.
El problema básico de la identificación de genes es que la secuencia del genoma dada finalmente, el rango del gen y su posición precisa en la secuencia del genoma se identifican correctamente. La región no codificante está compuesta de intrones, que generalmente se descartan después de la proteína. Se forma, pero a partir del experimento, si se elimina la región no codificante, no se puede completar la replicación de genes. Obviamente, las secuencias de ADN, como lenguaje genético, están contenidas en regiones codificantes e implícitas en secuencias no codificantes. Actualmente no existe un método de guía general para analizar secuencias de ADN en regiones no codificantes. En el genoma humano, no todas las secuencias están codificadas, lo que es una plantilla para una determinada proteína. La parte codificante completa solo representa del 3 al 5%. de la secuencia genética humana total Obviamente, es inimaginable buscar manualmente una secuencia genética tan grande. Los métodos de detección de regiones codificantes incluyen la medición de la frecuencia de codones en la región codificante, cadenas de Markov de primer y segundo orden, ORF (lectura abierta). Frames), identificación de promotores, HMM (Hidden Markov Model) y GENSCAN, Splice Alignment, etc.
4. Evolución molecular y genómica comparada
La evolución molecular utiliza las similitudes y diferencias de La misma secuencia genética en diferentes especies para estudiar la evolución de los organismos y construir un árbol evolutivo. Se pueden utilizar secuencias de ADN. También se puede hacer utilizando su secuencia de aminoácidos codificada, o incluso a través de proteínas relacionadas.
La premisa de utilizar la comparación de la estructura de la materia blanca para estudiar la evolución molecular es que razas similares son genéticamente similares. A través de la comparación, podemos descubrir a nivel del genoma cuáles son iguales y cuáles son diferentes entre diferentes razas. Métodos de investigación temprana Factores externos. Como el tamaño, el color de la piel, el número de extremidades, etc., se utilizan a menudo como base para la evolución. En los últimos años, con la finalización de muchas tareas de secuenciación del genoma de organismos modelo, las personas pueden estudiar la evolución molecular desde una perspectiva integral. genoma Al emparejar diferentes razas Al seleccionar genes, generalmente es necesario abordar tres situaciones: Ortólogos: genes de diferentes razas, con la misma función; Parálogos: genes de la misma raza, con diferentes funciones; entre organismos, como genes inyectados por virus. Un método comúnmente utilizado en un campo es construir árboles evolutivos, mediante características (es decir, posiciones específicas de bases de aminoácidos en secuencias de ADN o proteínas) y distancias (puntuaciones alineadas). ) métodos y algunos métodos de agrupamiento tradicionales (como UPGMA) para lograrlo.
5. Ensamblaje de secuencia contig (Contigs)
De acuerdo con la tecnología de secuenciación actual, cada reacción solo puede detectar secuencias de 500 o más pares de bases, por ejemplo, los genes humanos se miden utilizando el método shortgun, que requiere una gran cantidad de secuencias más cortas para formar contigs (Contigs). Se empalman gradualmente para formar contigs con secuencias más largas hasta completarse. Se obtiene la secuencia. El proceso de secuencia se llama ensamblaje de contig. Desde el nivel del algoritmo, el contig de secuencia es un problema NP completo
6. El origen del código genético
Por lo general, el código genético es. Algunos estudios creen que la relación entre codones y aminoácidos fue causada por un evento accidental en la historia de la evolución biológica, se fijó en el ancestro común de los organismos modernos y continúa hasta el día de hoy. Teoría, algunas personas han propuesto tres teorías para explicar el código genético: optimización de la selección, química e historia. Con la finalización de diversas tareas de secuenciación del genoma biológico, se han proporcionado nuevos métodos para estudiar el origen del código genético y probar la autenticidad del código genético. Teorías anteriores.
7. Diseño de fármacos basado en la estructura
Uno de los propósitos de la ingeniería genética humana es comprender la estructura, función, interacción e interacción de alrededor de 100.000 proteínas en el cuerpo humano. La relación entre diversas enfermedades humanas, la búsqueda de diversos métodos de tratamiento y prevención, incluido el diseño de fármacos basado en la estructura de macromoléculas biológicas y estructuras de moléculas pequeñas, es un campo de investigación extremadamente importante en bioinformática. o Según la actividad de una proteína, basándose en la estructura conocida de tercer nivel de la proteína, el algoritmo de alineación molecular se puede utilizar para diseñar moléculas inhibidoras en la computadora como fármacos candidatos. El propósito de este campo es descubrir nuevos fármacos genéticos. , lo que tiene enormes beneficios económicos.
8. Modelado y simulación de sistemas biológicos
Con el desarrollo de tecnología experimental a gran escala y la acumulación de datos, los sistemas biológicos se estudian y analizan desde La ley del desarrollo se ha convertido en otro foco de investigación en la era posgenómica: la biología de sistemas. En la actualidad, su contenido de investigación incluye simulación de sistemas biológicos (Curr Opin Rheumatol, 2007, 463-70), análisis de estabilidad del sistema (Nonlinear Dynamics Psychol Life Sci, 2007, 413-33) y análisis de robustez del sistema (Ernst Schering Res Found Workshop). , 2007, 69-88) y otros aspectos. Los lenguajes de modelado representados por SBML (Bioinformatics, 2007, 1297-8) se están desarrollando rápidamente, con redes booleanas (PLoS Comput Biol, 2007, e163), ecuaciones diferenciales (Mol Biol Cell, 2004, 3841-62), métodos como En el análisis de sistemas se han aplicado procesos estocásticos (Neural Comput, 2007, 3262-92) y sistemas de eventos dinámicos discretos (Bioinformatics, 2007, 336-43).
El establecimiento de muchos modelos se basa en los métodos de modelado de circuitos y otros sistemas físicos, y muchos estudios intentan resolver la complejidad del sistema a partir de ideas de análisis macro como el flujo de información, la entropía y el flujo de energía (Anal Quant Cytol Histol, 2007, 296 -308). Por supuesto, llevará mucho tiempo establecer un modelo teórico de sistemas biológicos. Aunque los datos de observación experimental están aumentando enormemente, los datos necesarios para la identificación de modelos de sistemas biológicos superan con creces la capacidad actual de producción de datos. Por ejemplo, para los datos de chips de series temporales, la cantidad de puntos de muestreo no es suficiente para utilizar los métodos tradicionales de modelado de series temporales, y el enorme costo experimental es la principal dificultad en el modelado del sistema actual. También se requieren avances innovadores en la descripción de sistemas y en los métodos de modelado.
9. Investigación sobre métodos técnicos de bioinformática
La bioinformática no es solo una simple disposición de conocimientos biológicos y una simple aplicación de conocimientos en matemáticas, física, ciencias de la información y otras disciplinas. Los datos masivos y los entornos complejos conducen al rápido desarrollo de métodos como el aprendizaje automático, el análisis de datos estadísticos y la descripción de sistemas en el contexto que enfrenta la bioinformática. La enorme cantidad de cálculos, los patrones de ruido complejos y los datos masivos que varían en el tiempo han traído grandes dificultades al análisis estadístico tradicional, que requiere métodos como la estadística no paramétrica (BMC Bioinformatics, 2007, 339) y el análisis de conglomerados (Qual Life Res, 2007). , 1655-63) y otras técnicas de análisis de datos más flexibles. El análisis de datos de alta dimensión requiere técnicas de compresión del espacio de características, como los mínimos cuadrados parciales (PLS). En el desarrollo de algoritmos informáticos, es necesario considerar plenamente la complejidad temporal y espacial del algoritmo y utilizar tecnologías como la computación paralela y la computación en red para ampliar la realizabilidad del algoritmo.
10. Imágenes biológicas
¿Por qué las personas que no están emparentadas por sangre se parecen tanto?
Las apariencias se componen de puntos similares. Cuanto más se superponen los puntos similares, más similares se ven las dos personas. ¿Por qué se superponen los puntos similares de dos personas que no están relacionadas por sangre?
¿Cuál es la base biológica? ¿Son los genes similares? No lo sé, espero que los expertos puedan responder.
11, otros
Como el análisis del perfil de expresión genética, el análisis de redes metabólicas, el diseño de chips genéticos y el análisis de datos proteómicos, etc., se han convertido gradualmente en un importante campo de investigación emergente en bioinformática; En términos de disciplinas, las disciplinas derivadas de la bioinformática incluyen genómica estructural, genómica funcional, genómica comparada, proteómica, farmacogenómica, genómica de la medicina tradicional china, genómica de tumores, epidemiología molecular y genómica ambiental, convirtiéndose en un método de investigación sistemático importante en biología. No es difícil ver en el desarrollo actual que la ingeniería genética ha entrado en la era posgenómica. También tenemos una comprensión clara de posibles malentendidos en el aprendizaje automático y las matemáticas que están estrechamente relacionados con la bioinformática.