Red de conocimiento informático - Material del sitio web - En el empalme de secuencia, ¿por qué se dice que cuanto mayor sea el n50, mejor será el efecto de empalme?

En el empalme de secuencia, ¿por qué se dice que cuanto mayor sea el n50, mejor será el efecto de empalme?

Porque si n50 es mayor, significa que hay más lecturas que contienen más bases, es decir, hay muchas lecturas largas y, por supuesto, el efecto de empalme será mejor.

Por ejemplo, si el tamaño de un genoma es 1M, se obtienen varias lecturas mediante secuenciación. Estas lecturas se empalman, si es posible unirlas, se obtiene la secuencia sin espacios en el medio. llamado contig, que significa continuo. Si hay un espacio en el medio, pero se puede conocer la longitud del espacio, dicha secuencia se denomina andamio, que significa andamio (no continuo).

Luego, organice el contig y el andamio de largo a corto, y luego súmelos. Cuando se suma exactamente el 50% de 1M, que es 500k, la longitud de ese contig o andamio se llama Contig N50. y Andamio N50. Evidentemente, cuanto mayor sea el valor, mejor será la calidad del montaje. ?

Es decir: cuenta atrás desde el más largo hasta los fragmentos cuya longitud sea la mitad de la longitud total. Cuanto más largo sea el último fragmento contado, más fragmentos largos habrá y mejor será la calidad del ensamblaje final. . ?

Principio del análisis de empalme:

La longitud medida por el instrumento de secuenciación al mismo tiempo es limitada y la secuencia en la muestra generalmente se mide de manera saturada con los datos originales. El archivo contendrá una gran cantidad de datos de diferentes posiciones en el gen, secuencias cortas de diferentes longitudes. El empalme funciona organizando estas secuencias cortas en un orden determinado y filtrando partes repetitivas para sintetizar secuencias largas.