Cómo separar pares de lecturas de extremos emparejados de secuencia corta de archivos SRA
Muchas veces separamos los datos de secuenciación de extremos pares de los archivos SRA del NCBI. Pero cuando utilizamos la herramienta fastq-dump del kit de herramientas SRA, a menudo solo obtenemos un archivo en lugar de dos. ¿Cómo puedo dividir este archivo en dos o más archivos? La respuesta no es necesariamente. Primero
Primero podemos intentar usar el parámetro –split-3 de fastq-dump. Para el parámetro –split-3, se introduce de la siguiente manera:
3 archivos heredados
división para pares de parejas: primeras lecturas biológicas que satisfacen el dumping
las condiciones se colocan en los archivos *_1.fastq y *_2.fastq. Si solo hay una
lectura biológica presente, se coloca en *.fastq. Las lecturas biológicas
anteriores se ignoran<. /p >
Es decir, si solo hay un archivo en el archivo SRA, este parámetro se ignorará. Si hay dos archivos en el archivo original,
separará los archivos emparejados como *_1.fastq,
*_2.fastq. Si aparece un tercer archivo, significa que el archivo en sí es una parte inigualable. Quizás se filtró de antemano cuando se envió, por lo que algunos de los datos se eliminaron
.
se unió en una sola secuencia
--gzip
Comprimir la salida usando gzip
--bzip2
<. p>Comprimir la salida usando bzip2Ejemplos de uso:
fastq-dump -X 5 -Z SRR390728
Imprime el primero
cinco puntos (-X 5) hasta la salida estándar (-Z). Este es un punto de partida útil
para verificar otras opciones de formato antes de volcar un archivo completo.
fastq-dump -. I --split-files SRR390728
Produce dos archivos fastq (--split-files) que contienen ".1" y ".2" lectura suficiente (-I) para datos de extremos emparejados.
fastq-dump --split-files --fasta 60 SRR390728
Produce dos (--split-files) archivos fasta (--fasta) con 60 bases por línea ("60" incluidas después de --fasta).
fastq-dump --split-files --aligned -Q 64 SRR390728
Produce
dos archivos fastq (--split -files) que contienen solo lecturas alineadas
(--aligned; Nota: solo para archivos enviados como datos alineados), con un
compensación de calidad de 64 (-Q 64) Por favor consulte la documentación en vdb-dump si
desea producir datos fasta/qual.
Posibles errores y su solución:
fastq-dump.2. x error: elemento no encontrado durante la construcción
dentro del módulo de base de datos virtual: la ruta "lt;path/SRR*.sragt;" no se puede abrir
como base de datos o tabla
Este error indica que no se puede encontrar el archivo .sra. Confirme que la ruta al archivo sea correcta.
fastq-dump.2.x error:
nombre no encontrado al resolver el árbol dentro del módulo del sistema de archivos virtual: falló SRR*.sra
Es probable que los datos
estén comprimidos por referencia y el kit de herramientas no pueda
adquiera las secuencias de referencia necesarias para extraer el archivo .sra.
Confirme que ha probado y validado la configuración del
kit de herramientas. kit de herramientas se comunique con
NCBI, deberá adquirir manualmente las referencias aquí
falló con el error curl "CURLE_COULDNT_RESOLVE_HOST"
El
el kit de herramientas está intentando contactar o descargar datos de NCBI, pero
no puede conectarse. Confirme que su computadora o servidor tenga
conectividad a Internet.
fastq-dump -h
Uso:
fastq-dump [opciones] [-A]lt;accessiongt;
fastq-dump [opciones] ] ] lt; ruta[ ruta...]gt;
ENTRADA
-A|--accessiongt; Reemplaza la entrada derivada de lt; >
nombre(s) de archivo y definiciones (solo para volcado de tabla
única)
--table lt; table-namegt; [NUEVO] Nombre de tabla dentro del objeto cSRA,
p>
el valor predeterminado es "SECUENCIA"
PROCESAMIENTO
Leer División Los datos de la secuencia se pueden usar en forma sin procesar o
dividir en lecturas individuales
--split-spot Dividir puntos en lecturas individuales
Filtros de puntos completos aplicados al punto completo independientemente
de --split-spot
-N|--minSpotId lt;rowid
gt; ID de punto mínimo
-X|--maxSpotId lt; rowidgt; ID de punto máximo
--spot-groups lt [lista]gt; : nombre[,...]
-W|--clip Aplicar clips izquierdo y derecho
Filtros comunes aplicados a puntos cuando --split-spot no lo es
establecer, de lo contrario - a lecturas individuales
-M|--minReadLen lt; filtrar por longitud de secuencia gt = lt; read-filter lt;[filter]gt; Dividir en archivos por valor READ_FILTER
opcionalmente filtrar por valor:
pass|reject|criteria|redacted
- E|--qual-filter Filtro utilizado en los datos de principios de 1000 genomas: no
secuencias que comiencen o terminen con gt = 10N
Filtros basados en alineaciones Los filtros están activos cuando se alinean
p>los datos están presentes
--aligned Volcar solo secuencias alineadas
--unaligned Volcar solo secuencias no alineadas
--aligned-region lt; nombre[:from-to]gt; Filtrar por posición en el genoma. El nombre puede
ser accession.version (por ejemplo:
NC_000001.10) o un nombre específico del archivo (por ejemplo:
"chr1" o "1"). "desde" y "hasta" son coordenadas
basadas en 1
--matepair-distance lt;from -to|unknowngt; Filtrar por distancia entre pares de pares
Utilice "desconocido" para encontrar pares de pares divididos
entre las referencias. distancia matepair en la misma referencia
Filtros para lecturas individuales Aplicado solo con --split-spot set
--skip-tec
Volcado técnico solo lecturas biológicas
SALIDA
-O|--outdir lt; directorio de salida, el directorio de trabajo predeterminado es
") p>
-Z|--stdout Salida a stdout, todos los datos divididos se
se unen en una sola secuencia
Múltiples opciones de archivo Configurar estas opciones producirá más
más de 1 archivo, cada uno de los cuales tendrá un sufijo
según los criterios de división.
--split-files Vuelca cada lectura en un archivo separado.Files
recibirá el sufijo correspondiente al número de lectura
--split-3 División heredada de 3 archivos para pares de parejas:
Primeras lecturas biológicas que satisfacen el dumping
las condiciones se colocan en los archivos *_1.fastq y
*_2.fastq. Si solo hay una lectura biológica
presente, se coloca en *.fastq Biological
las lecturas y superiores se ignoran
-G|--spot-group Dividido en archivos por SPOT_GROUP (nombre del miembro)
-R|--read. -filter lt;[filter]gt; Dividir en archivos por valor READ_FILTER
opcionalmente filtrar por valor:
pass|reject|criteria|redacted
-T |--group-in-dirs Dividir en subdirectorios en lugar de archivos
-K|--keep-empty-files No eliminar archivos vacíos
FORMATEO
Secuencia
-C|--dumpcs lt;[cskey]gt; Formatea la secuencia usando el espacio de color (predeterminado
para SOLiD), se puede especificar "cskey" para
traducción
-B|--dumpbase Formatea la secuencia usando el espacio base (d
predeterminado
para otros que no sean SOLiD).
Calidad
-Q|--offset lt; Offset a utilizar para la conversión de calidad,
el valor predeterminado es 33
--fasta solo FASTA, sin cualidades
Defline
-F|--origfmt Defline contiene solo el nombre de la secuencia original p>
Defline
p>
-I|--readids Agregue el ID de lectura después del ID del lugar como
"accession.spot.readid" en defline
--helicos Definición de estilo Helicos
--defline-seq lt; fmtgt; Definición de formato para secuencia
--defline-qual lt; especificación de calidad.
lt; fmtgt; es una cadena de caracteres y/o
variables. $si ID del spot, $sn spot
nombre, $sg spot grupo (código de barras), $sl spot
longitud en bases, $ri número de lectura, $rn
lee el nombre, $rl lee la longitud en bases. "[]"
podría usarse para una salida opcional: si
todas las variables en [] producen valores vacíos El grupo
completo no se imprime. El valor vacío es una cadena
vacía o para variables numéricas. Ejemplo:
@$sn[_$rn]/$ri. "_$rn" se omite si el nombre
está vacío
OTRO:
-h|--help Muestra una breve explicación del uso del programa
-V|--version Muestra la versión del programa
-L|--log-level lt;levelgt; Nivel de registro como número o cadena de enumeración Uno
de (fatal|sys|int|err|warn|info) o (0-5)
Actual/predeterminado es warn
-v|
--verbose Aumenta el nivel de detalle del programa
Úselo varias veces para obtener más detalle
Además, existe otro método/forums/showthread.php?t=12550
fastq-dump-SL