[DNA-Seq] relacionado con bam
Descripción del valor del indicador SAM
Consulta del valor del indicador Picard
clip suave y clip duro
Necesita saber qué alineación de recorte y alineación dividida representar
Con respecto a la alineación quimérica, la parte superior se muestra como recorte suave y otras como recorte duro La apariencia de recorte duro puede evitar la redundancia de información
Secuencia 0X4 (4) No alineada<. /p>
0X400 (1024) PCR o duplicado óptico
0X100 (256) alineación secundaria (excluyendo esta es la única alineación)
Juicio de falta de coincidencia:
El artículo está escrito muy claramente sobre los motivos de la duplicación. Base Miner: ¿Cómo se generan las cuatro repeticiones de lectura de la secuenciación de segunda generación? Según tengo entendido, en términos simples, es como. siguiente:
3. Duplicados ópticos, la fluorescencia capturada aparece como un fenómeno de difracción y un punto se convierte en dos puntos.
4. Duplicados hermanos, las dos hebras complementarias; de la biblioteca se combinan simultáneamente con los cebadores en la celda de flujo Combinados para formar sus propios grupos
Bases efectivas totales (Mb): la suma de los números de bases del genoma de referencia en comparación con el genoma de referencia p>
Secuencias efectivas en el objetivo (Mb): comparación con la suma de camas de los números de bases en la región
Especificidad de captura por lecturas (): Eficiencia de captura (número de lecturas en la región BED en expansión) /número de lecturas en el genoma de referencia)
Tasa de mapeo en el genoma (): Tasa de alineación (número de lecturas en comparación con el genoma de referencia/número total de lecturas en el archivo Bam) *** Siento que esto no es muy preciso, porque algunas quiméricas se compararon dos veces y se mostraron dos veces** *
Tasa de aciertos única (): tasa de alineación única, es decir, el número de lecturas alineadas únicas del genoma de referencia (- F 256) / el número de lecturas del genoma de referencia
Tasa de duplicación en el genoma (): El número de lecturas en dup (0x400) / El número de lecturas en el genoma de referencia de comparación
Tasa de discrepancia en la región objetivo (): La base de discrepancia en la región BED en expansión Número base / La suma de los números base en la región Bed (es decir, el efecto anterior
secuencias activas en el objetivo)
Profundidad de secuenciación promedio en el objetivo: profundidad de secuenciación promedio, es decir, la suma del número de bases en la región BED/el número total de bases en la región BED
Fracción del objetivo cubierto gt; = 1x (): El número de bases con una profundidad de más de 1 en la región BED / el número total de bases en la región BED
Fracción del objetivo cubierto gt; = 4x (): Igual que el anterior. . .
Uso:
Referencia: samtools idxstats
Uso:
Errores encontrados al usar plot-bamstats:
Utilicé conda para instalar samtools y gnuplot nuevamente. La versión de gnuplot instalada era gnuplot 5.2 nivel de parche 7. Como resultado, encontré el siguiente error:
Referencia: plot-bamstats
Referencia: Proceso de análisis de datos de secuenciación del exoma completo del tumor
Comando:
Habrá un Report.pdf en el resultado, que incluye todas las proporciones de mapeo, el tamaño de inserción, la cobertura media y las estadísticas cromosómicas. resultados y algunas imágenes de visualización.
Los resultados relacionados incluyen las estadísticas de Área objetivo y Área de flanco, que son bastante completas. No hay gráficos pero hay tablas relacionadas, por lo que puedes dibujar tu propio gráfico. Para obtener instrucciones específicas, se recomienda leer este artículo: :bamdst
Sin embargo, el sitio web oficial de bamdst tiene este párrafo, que no parece muy amigable para el análisis WGS:
Varios software o módulos para calcular la profundidad y cobertura de la secuencia
Nunca he importado un archivo gtf. Descubrí que importar gtf también requiere ordenar primero y luego crear un índice. Hay una referencia
: <. /p>
Archivo de anotaciones de importación IGV
Si se produce un error de Java al crear un índice, puede verificar si hay alguna otra forma de crear un índice además de igvtools
Allí También hay preguntas de Shengxin 100
Materiales de referencia:
100 preguntas básicas en bioinformática - Pregunta 29: ¿Cómo utilizar IGVTools para visualizar los resultados del mapeo?
La solución anterior usaba awk, pero pensé que era demasiado lenta; busqué nuevamente y descubrí que samtools fastq puede extraer la secuencia en el archivo bam a fastq, pero en el análisis posterior, encontré un error debido. a emparejamiento incorrecto La razón puede ser que fq1 y fq2 no están emparejados en orden secuencial. Después de buscar una solución, puede consultar este registro:
Cómo extraer fastq de un archivo BAM
Pero creo que samtools El método todavía es un poco lento, y luego descubrí un seqkit de software. La solución final es la siguiente:
-j thread
-v. selección inversa
-f id File