Red de conocimiento informático - Conocimiento informático - Codificación de caracteres GB2312

Codificación de caracteres GB2312

GB2312 también es un tipo de codificación ANSI. Amplía la codificación ASCII original de la codificación ANSI. Para satisfacer las necesidades nacionales de uso de caracteres chinos en las computadoras, la Administración Estatal de Estándares de China ha publicado un. Serie de conjuntos de caracteres chinos. Códigos estándar nacionales, denominados colectivamente códigos GB o códigos estándar nacionales. El más influyente es el "Conjunto básico de conjuntos de caracteres codificados en caracteres chinos para el intercambio de información" publicado en 1980. El número estándar es GB 2312-1980, debido a que se usa con mucha frecuencia, a menudo se lo denomina código estándar nacional. La codificación GB2312 es popular en mi país continental, Singapur y otros lugares también utilizan esta codificación. Casi todos los sistemas chinos y el software internacional admiten GB 2312.

GB 2312 es un conjunto de caracteres chinos simplificados, que consta de 6763 caracteres chinos de uso común y 682 caracteres no chinos de ancho completo. Los caracteres chinos se dividen en dos niveles según la frecuencia de uso. Hay 3755 caracteres chinos de primer nivel y 3008 caracteres chinos de segundo nivel. Debido a la cantidad relativamente grande de caracteres, GB2312 utiliza un método de codificación matricial bidimensional para codificar todos los caracteres. Primero, construya una matriz cuadrada con 94 filas y 94 columnas. Cada fila se llama "región" y cada columna se llama "bit". Luego complete todos los caracteres en la matriz cuadrada de acuerdo con las reglas de la siguiente tabla. De esta manera, todos los caracteres tienen una posición única en la matriz cuadrada. Esta posición se puede representar mediante una combinación de código de área y número de bit, que se denomina código de área del carácter. Por ejemplo, si el primer carácter chino "ah" aparece en la primera posición del área 16, su código de área es 1601. Debido a que el código de ubicación corresponde completamente a la posición del carácter, también existe una correspondencia uno a uno entre el código de ubicación y el carácter. De esta forma, todos los caracteres se pueden convertir en información codificada digitalmente a través de sus códigos de ubicación. La disposición y distribución de los caracteres GB2312 se muestran en la Tabla 1-4.

Tabla 1-4 Tabla de distribución de codificación de caracteres GB2312 Tipo de símbolo de rango de partición Sección 01 Puntuación china, símbolos matemáticos y algunos caracteres especiales Sección 02 Varios números de serie matemáticos Sección 03 Caracteres occidentales de ancho completo Distrito 04 Hiragana japonés Distrito 05 Katakana japonés Distrito 06 Alfabeto griego Distrito 07 Alfabeto ruso Distrito 08 Alfabeto chino Pinyin Distrito 09 Símbolos de tabulación Distrito 10-15 Sin caracteres Distrito 16-55 Uno Caracteres chinos de nivel 1 (ordenados por letras pinyin) Área 56-87 Caracteres chinos de nivel 2 (ordenados por radicales y trazos) Áreas 88-94 Ningún carácter y código de bits ocupan una unidad de almacenamiento respectivamente, y cada carácter chino ocupa dos unidades de almacenamiento. Dado que el rango de valores del código de área y del código de bits está entre 1 y 94, dicho rango entra en conflicto con la representación de almacenamiento de los idiomas occidentales. Por ejemplo, el código de ubicación del carácter chino 'Per' en GB2312 es 7174 y su representación de dos bytes es 71,74, mientras que los códigos de almacenamiento de los dos caracteres occidentales 'GJ' también son 71,74. Este conflicto hará imposible determinar si representa un carácter chino o dos caracteres occidentales al interpretar la codificación.

Para evitar conflictos con el almacenamiento de caracteres occidentales, al almacenar caracteres GB2312, el octavo bit de cada byte original se establece en 1 para distinguirlo de los caracteres occidentales. Si el octavo bit es 0, entonces. Indica caracteres occidentales; de lo contrario, indica caracteres en GB2312. Durante el almacenamiento real, se utiliza el método de agregar A0H (160) a cada byte del código de área para convertirlo en un código de almacenamiento. La regla de almacenamiento de la computadora es el complemento de este código, y el código de bits viene primero y el código de área. viene después. Por ejemplo, el código de ubicación del carácter chino 'ah' es 1601 y su código de almacenamiento es B0A1H. El proceso de conversión es: Código de ubicación Código de área Conversión de código de bits Código de almacenamiento 1001H 10H+A0H=B0H 01H+A0H=A1H B0A1H. La codificación GB2312 utiliza dos palabras. Una sección (binaria de 8 bits) representa un carácter chino, por lo que, en teoría, puede representar hasta 256 × 256 = 65536 caracteres chinos. Pero este método de codificación solo funciona en China. Si su página web utiliza la codificación GB2312, es posible que muchos extranjeros no puedan mostrarla correctamente cuando naveguen por su página web porque sus navegadores no admiten la codificación GB2312. Por supuesto, cuando los chinos navegan por páginas web extranjeras (como las japonesas), también encontrarán caracteres confusos o no podrán abrirlos porque nuestros navegadores no tienen instaladas tablas de codificación japonesas.