Archivos de anotación del genoma (2) | Descripción del formato de archivo gff y gtf
GFF y GTF son los dos formatos de anotación del genoma más utilizados al crear una biblioteca en el análisis de información, además de los archivos fasta, estos dos archivos generalmente son necesarios para extraer la información requerida para la anotación.
GFF (Formato de características generales) es un archivo que se utiliza para describir las características del genoma. La mayoría de los que utilizamos ahora son la tercera versión (gff3).
A excepción de gff1, los archivos gff se componen de 9 columnas de datos. Las primeras 8 columnas de información son las mismas en las tres versiones de gff, pero los nombres son diferentes:
. El archivo gtf se basa en Consta de 9 columnas separadas por la tecla de tabulación. La siguiente es la información correspondiente a cada columna:
Al principio del archivo GFF, puede haber una línea de comentario que comience con. #, el ejemplo es el siguiente
Para diferentes genomas Características, cuyas propiedades son diferentes.
Los cromosomas son la base, y en los cromosomas deben localizarse genes, exones, etc. posteriores.
Los ejemplos de pseudogenes son los siguientes
Los ejemplos de genes de ARNt son los siguientes
Los ejemplos de genes de miARN son los siguientes
Un miARN El gen eventualmente formará dos miARN maduros.
A continuación se muestran ejemplos de genes de lncRNA.
Cabe señalar que debido a la existencia de empalme alternativo, un gen codificador de proteínas puede tener múltiples transcripciones.
Consulte la información de anotación en la columna 9:
El nombre completo de gtf es formato de transferencia de genes, que se utiliza principalmente para anotar genes. El formato gtf más utilizado actualmente es la segunda versión. (gtf2). Todo lo siguiente se basa en la descripción de gtf2.
gtf es muy similar a gff3. También tiene 9 columnas de contenido. Su contenido es el siguiente:
Ejemplo:
GFF significa formato de características generales. Este formato se utiliza principalmente para anotar genomas.
GTF significa formato de transferencia de genes, que se utiliza principalmente para anotar genes.
La novena columna de GTF suele ser:
La novena columna de GFF suele ser:
En la actualidad, los dos archivos se pueden convertir fácilmente entre sí. : Utilice gffread
formato UCSC GTF
/sinat_38163598/article/details/72851239