SIFT: una herramienta para predecir si las sustituciones de aminoácidos afectan la función de las proteínas
SIFT es una herramienta abierta para predecir si las sustituciones de aminoácidos afectan la función de las proteínas. Está financiado por A*STAR (Agencia de Ciencia, Tecnología e Investigación) y GIS (Instituto del Genoma de Singapur) Paulien?Ng. mantenimiento de grupo, servidor de soporte BII (Instituto?Bioinformática).
Función SIFT
SIFT encuentra sustituciones dañinas a partir de sustituciones de aminoácidos basadas en secuencias homólogas y predice si esta sustitución de aminoácidos afectará el fenotipo. SIFT se basa en el supuesto de que la evolución de las proteínas está relacionada con la función de las proteínas. La posición es importante para la función, por lo que al comparar familias de proteínas, las posiciones deben conservarse, mientras que las posiciones sin importancia deben ser diversas.
¿Qué problemas puede analizar SIFT por usted?
1. Si tienes una proteína de interés, qué variaciones de aminoácidos esperas que afecten la función de la proteína. Cargue la secuencia en SIFT y en el archivo de puntuación resultante, las regiones de sustituciones nocivas se resaltarán en rojo y podrá seleccionar estas regiones para la mutación.
2. Si tienes una proteína con una única sustitución de aminoácido, SIFT puede predecir qué mutaciones afectarán al fenotipo antes de realizar experimentos de análisis funcional.
¿Cómo hace SIFT predicciones?
SIFT predice sustituciones inofensivas y sustituciones dañinas en cada posición de la secuencia en función de una secuencia a predecir y de información de alineación múltiple. La predicción SIFT es un proceso de varios pasos: 1. Buscar secuencias similares; 2. Seleccionar la secuencia más relevante que tenga funciones similares a la secuencia de consulta 3. Alinear las secuencias seleccionadas en el paso anterior; Como resultado, se calcula la probabilidad de que todas las alternativas posibles sean normales. Se predice que las posiciones con una probabilidad normal <0,05 serán dañinas y las posiciones con una probabilidad normal ≥0,05 serán inofensivas.
O bien, realice una predicción SIFT basada en el conservadurismo: en la versión original de SIFT, se puede agregar cualquier secuencia. En la versión actual, el usuario establece un umbral para la cantidad de secuencias para limitar la cantidad de secuencias.
Si las predicciones de secuencias se basan en la diversidad (umbral de conservación bajo), solo se predecirá que serán perjudiciales las sustituciones en posiciones altamente conservadas. Si las secuencias utilizadas para la predicción son muy similares entre sí (umbral de conservación alto), entonces se predecirá que la mayoría de las sustituciones serán perjudiciales.
Al comparar los datos experimentales, encontramos que la probabilidad normal alternativa <0,05 es perjudicial y establecimos 0,05 como umbral de predicción. Recomendamos encarecidamente a los usuarios que comprueben manualmente la probabilidad normal alternativa. Si su probabilidad normal alternativa es ligeramente superior a 0,05, puede considerar esta alternativa dañina.
Cargar tipo de datos
Puedes cargar una secuencia de proteínas (velocidad de predicción lenta), o la secuencia a predecir y algunas secuencias relacionadas (velocidad de predicción rápida), o la secuencia a predecir. secuencias predichas y relacionadas Resultados de alineación de secuencias (predicción más rápida). Los tipos de datos cargados son los siguientes:
1.? ¿Un NCBI?GI?#
Puede cargar un NCBI?GI?#id para la predicción SIFT. la búsqueda BLAST calculada por adelantado y la retroalimentación dentro de un minuto.
2.?Una secuencia
Puedes subir una secuencia de proteínas (formato FASTA) y un conjunto de secuencias relacionadas.
Si conoces las proteínas relacionadas con la secuencia a predecir, puedes subir la secuencia de consulta y estas secuencias relacionadas, para que la velocidad de cálculo sea más rápida. En el archivo cargado, utilice la secuencia que se va a predecir como la primera secuencia (formato FASTA). Tenga en cuenta que la primera letra al comienzo de la secuencia FASTA es especial. Por ejemplo, tomemos las siguientes dos secuencias.
gt; A8T644PCSK9?PANTR?PROTEÍNA?CONVERTASA?SUBTILISINA?KEXIN?TYPE?9?OS=PAN?TROGLODITOS
gt;A8T655PCSK9?PANPA?PROPROTEÍNA?CONVERTASA?SUBTILISINA?KEXIN ?TYPE?9?OS=PAN?PANISCUS
Estas dos secuencias son indispensables porque ambas comienzan con SP y el sistema no puede distinguirlas.
gt;SP?A8T644PCSK9?PANTR?PROPROTEÍNA?CONVERTASA?SUBTILISINA?KEXIN?TYPE?9?OS=PAN?TROGLODITOS
gt;SP?A8T655PCSK9?PANPA?PROPROTEÍNA?CONVERTASA ?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?PANISCUS
3.?Múltiples resultados de alineación
Si tiene múltiples resultados de alineación para la secuencia de interés, puede cargarlos en Formato CLUSTAL, MSF o FASTA. Su secuencia de proteínas debe colocarse en la parte superior del archivo, la longitud de la alineación debe ser consistente con la longitud de la proteína que se va a predecir y no debe haber espacios en la secuencia de proteínas que se va a predecir.
4.?Reemplazo
SIFT predice si una sustitución es dañina o inofensiva en función de la puntuación. El formato de sustitución es X#Y, X representa el aminoácido original, # representa la posición de reemplazo e Y representa el nuevo aminoácido. Sólo puede haber una sustitución por línea. Como se muestra a continuación.
M1Y
K3S
T4P
Resultados de salida de SIFT
Predicción SIFT de aminoácidos sustituidos
Detalles del resultado de salida
El rango de valores de la puntuación SIFT es 0-1. Si la puntuación es ≤0,05, se predice que la sustitución de aminoácidos será perjudicial; si la puntuación es >0,05, es perjudicial. inofensivo.
El rango de valores de la información de la secuencia mediana es 0-4,32. Idealmente, el rango de valores es 2,75-3,5. La información de secuencia mediana es una medida de la diversidad de secuencia predicha. Aparecerá una advertencia si el valor es >3,25, ya que esto indica que la predicción se basa en una serie muy correlacionada.
Número de secuencia en la posición El número de secuencias que tienen un aminoácido en la posición prevista. SIFT selecciona secuencias automáticamente, pero si la sustitución se realiza al principio o al final de la secuencia de proteínas, entonces solo algunas secuencias cumplen los criterios. Esta columna predice este aspecto.
Ejemplo: predicción de una secuencia de proteína única
Tome una secuencia de proteína única como ejemplo para ver los resultados de predicción de la secuencia mediante SIFT.
Pasos,
1. Pegue una secuencia de proteínas en formato FASTA como se muestra a continuación. También puedes subir archivos en formato FASTA.
2. Establezca los parámetros
3. Después del envío, espere los resultados. El informe de resultados de la predicción SIFT se muestra en la siguiente figura. Puede ver cada resultado uno por uno. Según estos resultados, es posible mutar selectivamente aminoácidos en determinadas posiciones para predecir la función de las proteínas.
(1) Para esta secuencia de proteínas, la tabla de posibilidades normales de sustitución de aminoácidos en cada posición se muestra en la siguiente figura (parte interceptada).
En la figura anterior, cada fila representa la posición correspondiente en la proteína de referencia, y debajo de cada posición están los aminoácidos de esta secuencia. Cada columna representa uno de los 20 aminoácidos. Cada entrada registra una puntuación correspondiente a una posición específica de una sustitución de aminoácido, y las sustituciones dañinas se resaltan en rojo.
(2) Predicción de posición
El umbral para determinar si la sustitución de aminoácidos es perjudicial es 0,05. Descripción de los colores de los aminoácidos: el negro representa aminoácidos no polares, el verde representa aminoácidos polares sin carga, el rojo representa aminoácidos básicos y el azul representa aminoácidos ácidos.
Las letras mayúsculas indican aminoácidos presentes en la alineación, las letras minúsculas provienen de predicciones. "Seq?Rep" es un fragmento de secuencia que incluye aminoácidos básicos. Los fragmentos cortos indican que esta posición tiene muchos espacios en blanco o no se puede comparar porque hay poca información.