Red de conocimiento informático - Material del sitio web - Cómo separar pares de lecturas de extremos emparejados de secuencia corta de archivos SRA

Cómo separar pares de lecturas de extremos emparejados de secuencia corta de archivos SRA

Muchas veces separamos los datos de secuenciación de extremos pares de los archivos SRA del NCBI. Pero cuando utilizamos la herramienta fastq-dump del kit de herramientas SRA, a menudo solo obtenemos un archivo en lugar de dos. ¿Cómo puedo dividir este archivo en dos o más archivos? La respuesta no es necesariamente. Primero

Primero podemos intentar usar el parámetro –split-3 de fastq-dump. Para el parámetro –split-3, se introduce de la siguiente manera:

3 archivos heredados

división para pares de parejas: primeras lecturas biológicas que satisfacen el dumping

las condiciones se colocan en los archivos *_1.fastq y *_2.fastq. Si solo hay una

lectura biológica presente, se coloca en *.fastq. Las lecturas biológicas

anteriores se ignoran<. /p >

Es decir, si solo hay un archivo en el archivo SRA, este parámetro se ignorará. Si hay dos archivos en el archivo original,

separará los archivos emparejados como *_1.fastq,

*_2.fastq. Si aparece un tercer archivo, significa que el archivo en sí es una parte inigualable. Quizás se filtró de antemano cuando se envió, por lo que algunos de los datos se eliminaron

.

se unió en una sola secuencia

--gzip

Comprimir la salida usando gzip

--bzip2

<. p>Comprimir la salida usando bzip2

Ejemplos de uso:

fastq-dump -X 5 -Z SRR390728

Imprime el primero

cinco puntos (-X 5) hasta la salida estándar (-Z). Este es un punto de partida útil

para verificar otras opciones de formato antes de volcar un archivo completo.

fastq-dump -. I --split-files SRR390728

Produce dos archivos fastq (--split-files) que contienen ".1" y ".2" lectura suficiente (-I) para datos de extremos emparejados.

fastq-dump --split-files --fasta 60 SRR390728

Produce dos (--split-files) archivos fasta (--fasta) con 60 bases por línea ("60" incluidas después de --fasta).

fastq-dump --split-files --aligned -Q 64 SRR390728

Produce

dos archivos fastq (--split -files) que contienen solo lecturas alineadas

(--aligned; Nota: solo para archivos enviados como datos alineados), con un

compensación de calidad de 64 (-Q 64) Por favor consulte la documentación en vdb-dump si

desea producir datos fasta/qual.

Posibles errores y su solución:

fastq-dump.2. x error: elemento no encontrado durante la construcción

dentro del módulo de base de datos virtual: la ruta "lt;path/SRR*.sragt;" no se puede abrir

como base de datos o tabla

Este error indica que no se puede encontrar el archivo .sra. Confirme que la ruta al archivo sea correcta.

fastq-dump.2.x error:

nombre no encontrado al resolver el árbol dentro del módulo del sistema de archivos virtual: falló SRR*.sra

Es probable que los datos

estén comprimidos por referencia y el kit de herramientas no pueda

adquiera las secuencias de referencia necesarias para extraer el archivo .sra.

Confirme que ha probado y validado la configuración del

kit de herramientas. kit de herramientas se comunique con

NCBI, deberá adquirir manualmente las referencias aquí

falló con el error curl "CURLE_COULDNT_RESOLVE_HOST"

El

el kit de herramientas está intentando contactar o descargar datos de NCBI, pero

no puede conectarse. Confirme que su computadora o servidor tenga

conectividad a Internet.

fastq-dump -h

Uso:

fastq-dump [opciones] [-A]lt;accessiongt;

fastq-dump [opciones] ] ] lt; ruta[ ruta...]gt;

ENTRADA

-A|--accessiongt; Reemplaza la entrada derivada de lt; >

nombre(s) de archivo y definiciones (solo para volcado de tabla

única)

--table lt; table-namegt; [NUEVO] Nombre de tabla dentro del objeto cSRA,

p>

el valor predeterminado es "SECUENCIA"

PROCESAMIENTO

Leer División Los datos de la secuencia se pueden usar en forma sin procesar o

dividir en lecturas individuales

--split-spot Dividir puntos en lecturas individuales

Filtros de puntos completos aplicados al punto completo independientemente

de --split-spot

-N|--minSpotId lt;rowid

gt; ID de punto mínimo

-X|--maxSpotId lt; rowidgt; ID de punto máximo

--spot-groups lt [lista]gt; : nombre[,...]

-W|--clip Aplicar clips izquierdo y derecho

Filtros comunes aplicados a puntos cuando --split-spot no lo es

establecer, de lo contrario - a lecturas individuales

-M|--minReadLen lt; filtrar por longitud de secuencia gt = lt; read-filter lt;[filter]gt; Dividir en archivos por valor READ_FILTER

opcionalmente filtrar por valor:

pass|reject|criteria|redacted

- E|--qual-filter Filtro utilizado en los datos de principios de 1000 genomas: no

secuencias que comiencen o terminen con gt = 10N

Filtros basados ​​en alineaciones Los filtros están activos cuando se alinean

p>

los datos están presentes

--aligned Volcar solo secuencias alineadas

--unaligned Volcar solo secuencias no alineadas

--aligned-region lt; nombre[:from-to]gt; Filtrar por posición en el genoma. El nombre puede

ser accession.version (por ejemplo:

NC_000001.10) o un nombre específico del archivo (por ejemplo:

"chr1" o "1"). "desde" y "hasta" son coordenadas

basadas en 1

--matepair-distance lt;from -to|unknowngt; Filtrar por distancia entre pares de pares

Utilice "desconocido" para encontrar pares de pares divididos

entre las referencias. distancia matepair en la misma referencia

Filtros para lecturas individuales Aplicado solo con --split-spot set

--skip-tec

Volcado técnico solo lecturas biológicas

SALIDA

-O|--outdir lt; directorio de salida, el directorio de trabajo predeterminado es

")

-Z|--stdout Salida a stdout, todos los datos divididos se

se unen en una sola secuencia

Múltiples opciones de archivo Configurar estas opciones producirá más

más de 1 archivo, cada uno de los cuales tendrá un sufijo

según los criterios de división.

--split-files Vuelca cada lectura en un archivo separado.Files

recibirá el sufijo correspondiente al número de lectura

--split-3 División heredada de 3 archivos para pares de parejas:

Primeras lecturas biológicas que satisfacen el dumping

las condiciones se colocan en los archivos *_1.fastq y

*_2.fastq. Si solo hay una lectura biológica

presente, se coloca en *.fastq Biological

las lecturas y superiores se ignoran

-G|--spot-group Dividido en archivos por SPOT_GROUP (nombre del miembro)

-R|--read. -filter lt;[filter]gt; Dividir en archivos por valor READ_FILTER

opcionalmente filtrar por valor:

pass|reject|criteria|redacted

-T |--group-in-dirs Dividir en subdirectorios en lugar de archivos

-K|--keep-empty-files No eliminar archivos vacíos

FORMATEO

Secuencia

-C|--dumpcs lt;[cskey]gt; Formatea la secuencia usando el espacio de color (predeterminado

para SOLiD), se puede especificar "cskey" para

traducción

-B|--dumpbase Formatea la secuencia usando el espacio base (d

predeterminado

para otros que no sean SOLiD).

Calidad

-Q|--offset lt; Offset a utilizar para la conversión de calidad,

el valor predeterminado es 33

--fasta solo FASTA, sin cualidades

Defline

-F|--origfmt Defline contiene solo el nombre de la secuencia original

Defline

p>

-I|--readids Agregue el ID de lectura después del ID del lugar como

"accession.spot.readid" en defline

--helicos Definición de estilo Helicos

--defline-seq lt; fmtgt; Definición de formato para secuencia

--defline-qual lt; especificación de calidad.

lt; fmtgt; es una cadena de caracteres y/o

variables. $si ID del spot, $sn spot

nombre, $sg spot grupo (código de barras), $sl spot

longitud en bases, $ri número de lectura, $rn

lee el nombre, $rl lee la longitud en bases. "[]"

podría usarse para una salida opcional: si

todas las variables en [] producen valores vacíos El grupo

completo no se imprime. El valor vacío es una cadena

vacía o para variables numéricas. Ejemplo:

@$sn[_$rn]/$ri. "_$rn" se omite si el nombre

está vacío

OTRO:

-h|--help Muestra una breve explicación del uso del programa

-V|--version Muestra la versión del programa

-L|--log-level lt;levelgt; Nivel de registro como número o cadena de enumeración Uno

de (fatal|sys|int|err|warn|info) o (0-5)

Actual/predeterminado es warn

-v|

--verbose Aumenta el nivel de detalle del programa

Úselo varias veces para obtener más detalle

Además, existe otro método/forums/showthread.php?t=12550

fastq-dump-SL