Red de conocimiento informático - Programación de la red - Hablemos de la diferencia entre utf-8 y gb-2312.

Hablemos de la diferencia entre utf-8 y gb-2312.

Codificación de caracteres de longitud variable UTF-8

/view/25412.htm

UTF-8 es una codificación de caracteres de longitud variable de UNICODE, también conocida como código universal, escrita por Ken Thompson Fundado en 1992. Ahora ha sido estandarizado como RFC 3629. UTF-8 codifica caracteres UNICODE utilizando de 1 a 6 bytes. Cuando se utiliza en una página web, el chino simplificado, el chino tradicional y otros idiomas (como el japonés y el coreano) se pueden mostrar en la misma página.

Ventajas de la codificación UTF-8:

Al enmascarar bits y cambiar operaciones, la codificación UTF-8 se puede leer y escribir rápidamente. Al comparar cadenas, strcmp() y wcscmp() devuelven los mismos resultados, lo que facilita la clasificación. Los bytes FF y FE nunca aparecen en la codificación UTF-8, por lo que se pueden usar para representar texto UTF-16 o UTF-32 (ver BOM). UTF-8 es independiente del orden de los bytes. Su orden de bytes es el mismo en todos los sistemas, por lo que en realidad no requiere una lista de materiales.

Desventajas de la codificación UTF-8:

No se puede juzgar el número de bytes de texto UTF-8 a partir del número de caracteres UNICODE, porque UTF-8 es una codificación de longitud variable. y requiere 2 bytes para codificar. Aquellos caracteres que requieren solo 1 byte en el conjunto de caracteres ASCII extendido ISO Latin-1 son un subconjunto de UNICODE, no un subconjunto de UTF-8. La codificación UTF-8 de 8 caracteres será filtrada por las puertas de enlace de correo electrónico porque los mensajes de Internet se diseñaron originalmente como ASCII de 7 bits. Entonces se produjo la codificación UTF-7. UTF-8 utiliza un valor de 100xxxxx en su representación con una probabilidad superior a 50, y las implementaciones existentes como los sistemas ISO 2022, 4873, 6429 y 8859 lo confundirán con el código de control C1. Por lo tanto, surgió la codificación UTF-7.5.

El código GB2312 es el código nacional para el intercambio de información de caracteres chinos de la República Popular China. El nombre completo del "Conjunto de caracteres codificados chinos para el intercambio de información" es Conjunto básico, que fue promulgado por la Oficina Nacional de Estándares e implementado en mayo de 1981 y es popular en China continental. Este código también se utiliza en lugares como Singapur.

GB 2312 o GB 2312-80 es el estándar nacional chino para conjuntos de caracteres chinos simplificados, conocido como "Conjunto básico de codificación de caracteres chinos para el intercambio de información", también conocido como GB0. Administración Estatal de Normas en mayo de 2005. Implementado en enero de 1981. China continental utiliza el código GB 2312; Singapur y otros lugares también utilizan esta codificación. Casi todos los sistemas chinos y el software internacional en China continental admiten GB 2312.

El estándar GB 2312 * * * contiene 6763 caracteres chinos, incluidos 3755 caracteres chinos de primer nivel y 3008 caracteres chinos de segundo nivel. Al mismo tiempo, GB 2312 incluye letras latinas, letras griegas, hiragana japonesa y; letras katakana, cirílico ruso y otros 682 caracteres de ancho completo.

La aparición de GB 2312 básicamente satisface las necesidades de las computadoras para procesar caracteres chinos, y sus caracteres chinos han cubierto el 99,75% de la frecuencia de uso en China continental.

Representación dividida

En GB 2312, los caracteres chinos recibidos están divididos y cada partición contiene 94 caracteres/símbolos chinos. Esta representación también se denomina código de ubicación.

01-09 es un símbolo especial.

16-55 son caracteres chinos de primer nivel, ordenados por pinyin.

Las áreas 56-87 son caracteres chinos secundarios, clasificados según radicales/trazos.

10-15 y 88-94 no están codificados.

Por ejemplo, el carácter "Ah" es el primer carácter chino en GB2312 y el código de área es 1601.

Juego de caracteres codificados en chino GB2312 para intercambio de información.

/view/25492.htm