Detalles del conjunto de caracteres
Carácter es un término general para varios caracteres y símbolos, incluidos caracteres de varios países, signos de puntuación, símbolos gráficos, números, etc. El juego de caracteres (juego de caracteres) es una colección de varios caracteres. Hay muchos tipos de juegos de caracteres y cada juego de caracteres contiene un número diferente de nombres de juegos de caracteres comunes: juego de caracteres ASCII, juego de caracteres GB2312, juego de caracteres BIG5, GB18030. juego de caracteres, juego de caracteres Unicode, etc. Para que una computadora procese con precisión varios conjuntos de caracteres, necesita codificar caracteres para que la computadora pueda reconocer y almacenar varios caracteres. La cantidad de caracteres chinos es grande y también se divide en dos tipos de caracteres, chino simplificado y chino tradicional, con diferentes reglas de escritura. Las computadoras se diseñaron originalmente en base a caracteres de tupla de unidades en inglés. Por lo tanto, la codificación de caracteres chinos es la clave. Intercambio de información china. Base técnica. Introducción básica Nombre chino: conjunto de caracteres Nombre extranjero: conjunto de caracteres Definición: tipo de colección de múltiples caracteres: ASCII, GB2312, BIG5, GB18030 y otros ASCII, origen del nombre, características, incluido el contenido, características técnicas, conjunto de caracteres extendido, GB2312, origen del nombre , características, contenido incluido, características técnicas, ejemplos de codificación, BIG5, origen del nombre, características, método de codificación, limitaciones, GB18030, origen del nombre, características, método de codificación, contenido incluido, Unicode, origen del nombre, características, método de codificación, UTF-8 codificación, comparación, origen del nombre ASCII ASCII (Código estándar americano para el intercambio de información, Código estándar americano para el intercambio de información) es un sistema de codificación informática basado en el alfabeto romano. Características Se utiliza principalmente para mostrar inglés moderno y otros idiomas de Europa occidental. Es el sistema de codificación de tuplas de unidades más común en la actualidad y equivale al estándar internacional ISO 646. Contiene contenido: caracteres de control: tecla Intro, tecla de retroceso, tecla de avance de línea, etc. Caracteres que se pueden mostrar: caracteres en mayúsculas y minúsculas en inglés, números arábigos y símbolos occidentales. Características técnicas: 7 bits representan un carácter, máx. 128 caracteres, los valores de los caracteres van de 0 a 127, de los cuales 32 a 126 son caracteres imprimibles. El conjunto de caracteres codificados de 7 bits del juego de caracteres extendido solo admite 128 caracteres. Para representar los caracteres europeos más utilizados, el juego de caracteres extendido ASCII utiliza 8 bits para representar un carácter. Conjunto de caracteres extendido ASCII: Es una expansión del conjunto de caracteres ASCII. Los símbolos expandidos incluyen símbolos de tabla, símbolos de cálculo, letras griegas y símbolos latinos especiales. Origen del nombre GB2312 GB2312 también se conoce como juego de caracteres GB2312-80, el nombre completo es "Conjunto de caracteres de codificación de caracteres chinos para el conjunto básico de intercambio de información", que fue publicado por la antigua Administración Estatal de Estándares de China e implementado el 1 de mayo. 1981. Características GB2312 es el conjunto de caracteres chinos simplificados estándar nacional de China. Los caracteres chinos que contiene han cubierto el 99,75% de las frecuencias de uso, satisfaciendo básicamente las necesidades de procesamiento informático de los caracteres chinos. Se utiliza ampliamente en China continental y Singapur. El contenido GB2312 incluye caracteres chinos simplificados y símbolos generales, números de serie, números, letras latinas, kana japonesa, letras griegas, letras rusas, símbolos pinyin chinos, letras fonéticas chinas y 7445 caracteres gráficos. Incluye 6763 caracteres chinos, incluidos 3755 caracteres chinos de primer nivel y 3008 caracteres chinos de segundo nivel; 682 caracteres de ancho completo que incluyen letras latinas, letras griegas, letras japonesas hiragana y katakana y letras cirílicas rusas. Características técnicas (1) Representación de partición: GB2312 realiza un procesamiento de "partición" en los caracteres chinos recopilados y cada zona contiene 94 caracteres/símbolos chinos. Esta representación también se llama código de ubicación.
Los caracteres incluidos en cada área son los siguientes: las áreas 01-09 son símbolos especiales; las áreas 16-55 son caracteres chinos de primer nivel, ordenados por pinyin; las áreas 56-87 son caracteres chinos de segundo nivel, ordenados por radicales/trazos; Áreas 10-15 y 88 El área -94 no está codificada. (2) Representación de doble byte: el primer byte de los dos bytes es el primer byte y el último byte es el segundo byte. Es habitual llamar al primer byte "byte alto" y al segundo byte "byte bajo". El "byte alto" usa 0xA1-0xF7 (agregue 0xA0 al código de área del área 01-87) y el "byte bajo" usa 0xA1-0xFE (agregue 01-94 a 0xA0). El ejemplo de codificación es el primer carácter chino "ah" en el juego de caracteres GB2312. Su código de área es 16 y el número de bits es 01, por lo que el código de área es 1601. En la mayoría de los programas informáticos, el byte alto y el byte bajo se agregan por separado. 0xA0 obtiene el código de procesamiento de caracteres chinos 0xB0A1 del programa. La fórmula de cálculo es: 0xB0=0xA0 16, 0xA1=0xA0 1. El origen del nombre BIG5, también conocido como Big Five o Big Five, fue establecido en 1984 por la Asociación de la Industria de la Información de Taiwán y se fundaron cinco empresas de software: Acer, MiTAC, Allison, Zero One y Volkswagen (FIC). se llama el código de los cinco grandes. El código Big5 se creó porque diferentes fabricantes en Taiwán en ese momento lanzaron códigos diferentes, como el código Yitian, IBM PS55, el código Wang'an, etc., que eran incompatibles entre sí, por otro lado, Taiwán *** tenía; Aún no se ha lanzado un código oficial de caracteres chinos, y la codificación GB2312 de China continental no incluye caracteres chinos tradicionales. Características El juego de caracteres Big5 *** contiene 13.053 caracteres chinos. Este juego de caracteres se utiliza en Taiwán, China. Lo que resulta intrigante es que este conjunto de caracteres contiene repetidamente los mismos dos caracteres: "兀" (0xA461 y 0xC94A) y "嗀" (0xDCD1 y 0xDDFC). Método de codificación El código Big5 utiliza un método de almacenamiento de doble byte, que utiliza dos bytes para codificar una palabra. El primer byte se denomina "byte alto" y el segundo byte se denomina "byte bajo". El rango de codificación de los bytes de orden superior es 0xA1-0xF9 y el rango de codificación de los bytes de orden inferior es 0x40-0x7E y 0xA1-0xFE. Los tipos de caracteres correspondientes a cada rango de codificación son los siguientes: 0xA140-0xA3BF son signos de puntuación, letras griegas y símbolos especiales. Además, 0xA259-0xA261 almacena las palabras para unidades de medida de dos sílabas: 兙兛兞兝兡兣嗧瓩.玎; 0xA440- 0xC67E es un carácter chino de uso común, ordenado primero por trazo y luego por radical; 0xC940-0xF9D5 es un carácter chino de uso menos común, también ordenado primero por trazo y luego por radical. Limitaciones Aunque el código Big5 contiene más de 10.000 caracteres, no tiene en cuenta los nombres de personas, nombres de lugares, dialectos, química y biología, etc. que son populares en la sociedad. No incluye las letras japonesas hiragana y katakana. Por ejemplo, Taiwán considera que "Zhu" es una variante de "Zhu", por lo que la palabra "Zhu" no está incluida. Algunos radicales en el diccionario Kangxi (como "亠", "疒", "辵", "綶", etc.), nombres comunes (como "kun", "xuan", "白", "喆") ", etc.) no están incluidos en el Big5. Origen del nombre GB18030 El nombre completo de GB 18030 es GB18030-2000 "Expansión del conjunto básico de caracteres de codificación de caracteres chinos para el intercambio de información. Es un nuevo estándar nacional para la codificación de caracteres chinos publicado por *** de". nuestro país el 17 de marzo de 2000, en agosto de 2001. El software lanzado al mercado chino después del 31 de marzo debe cumplir con este estándar. Características El estándar de juego de caracteres GB 18030 se introdujo después de una amplia participación y demostración. Fue implementado conjuntamente por empresas reconocidas de la industria de tecnología de la información en el país y en el extranjero, el Ministerio de Industria de la Información y la antigua Administración Estatal de Calidad y Supervisión Técnica. Juego de caracteres GB18030 El estándar del juego de caracteres GB 18030 resuelve el problema de la codificación por computadora de grandes conjuntos de caracteres compuestos por caracteres chinos, kana japonés, coreano y caracteres minoritarios chinos.
El espacio total de codificación de caracteres de este estándar supera los 1,5 millones de bits de codificación y contiene 27.484 caracteres chinos, que abarcan escrituras chinas, japonesas, coreanas y de minorías chinas. Cumple con los requisitos de formato de codificación unificado, multilingüe, tamaño de fuente grande y multiuso para el intercambio de información en el este de Asia, incluida China continental, Hong Kong, Taiwán, Japón y Corea del Sur. También es compatible con Unicode versión 3.0 y completa el contenido del vocabulario de caracteres extendido Unicode "Extensión de caracteres chinos unificados A". Y es compatible con los estándares nacionales de codificación de caracteres anteriores (GB2312, GB13000.1). Método de codificación El estándar GB 18030 utiliza tres métodos para codificar caracteres: tupla unitaria, doble byte y cuarteto. La parte de tupla de unidades utiliza códigos 0×00 a 0×7F (correspondientes a los códigos correspondientes del código ASCII). En la parte de doble byte, el primer código de tupla varía de 0×81 a 0×FE, y los bits del código de bytes de cola son de 0×40 a 0×7E y de 0×80 a 0×FE respectivamente. La parte de cuatro bytes utiliza 0×30 a 0×39 que no se utilizan en GB/T 11383 como sufijo para la expansión de codificación de dos bytes. La codificación extendida de cuatro bytes oscila entre 0×81308130 y 0×FE39FE39. Los bits del código de codificación del primer y tres bytes son todos de 0 × 81 a 0 × FE, y los bits del código de codificación del segundo y de cuatro bytes son todos de 0 × 30 a 0 × 39. Los contenidos incluidos en la parte de doble byte incluyen principalmente 20,902 caracteres chinos CJK en GB13000.1, 13 signos de puntuación relacionados, descriptores ideográficos, 80 caracteres chinos suplementarios y radicales/componentes, y el símbolo del euro codificado en doble byte. La parte de cuatro bytes contiene todos los caracteres de GB 13000.1, incluida la extensión A de caracteres chinos unificados CJK, además de los caracteres de dos bytes mencionados anteriormente. El origen del nombre Unicode codificación de conjunto de caracteres es la abreviatura de Universal Multiple-Octet Coded Character Set. Es un sistema de codificación de caracteres desarrollado por una organización llamada Unicode Consortium y admite el intercambio, procesamiento y visualización de texto escrito en la actualidad. los diversos idiomas del mundo. La codificación comenzó a desarrollarse en 1990 y se anunció oficialmente en 1994. La última versión es Unicode 6.1 el 31 de enero de 2012. Características Unicode es una codificación de caracteres utilizada en las computadoras. Establece una codificación binaria unificada y única para cada carácter en cada idioma para cumplir con los requisitos de conversión y procesamiento de texto entre idiomas y plataformas. Método de codificación El estándar Unicode siempre utiliza números hexadecimales y tiene el prefijo "U" al escribir. Por ejemplo, la codificación de la letra "A" es 004116 y la codificación del carácter "?" Entonces el código para "A" se escribe como "U 0041". Codificación UTF-8 UTF-8 es uno de los usos de Unicode. UTF es el formato de transformación Unicode, lo que significa convertir Unicode a un formato determinado. UTF-8 facilita la transmisión de texto en diferentes idiomas y codificaciones entre diferentes computadoras a través de la red, lo que permite que Unicode de doble byte se transmita correctamente en sistemas existentes que manejan tuplas de unidades. UTF-8 utiliza bytes de longitud variable para almacenar caracteres Unicode. Por ejemplo, las letras ASCII continúan almacenándose en 1 byte, los caracteres acentuados, las letras griegas o cirílicas se almacenan en 2 bytes y los caracteres chinos de uso común utilizan 3 bytes. Los caracteres del plano auxiliar utilizan 4 bytes. UTF-8 (formato de transformación Unicode de 8 bits) es una codificación de caracteres de longitud variable para Unicode, también conocida como Unicode. Creado por Ken Thompson en 1992. Actualmente está estandarizado como RFC 3629. UTF-8 codifica caracteres UNICODE de 1 a 6 bytes.
Cuando se utiliza en una página web, la misma página puede mostrar chino simplificado, chino tradicional y otros idiomas (como inglés, japonés, coreano). Comparación de las codificaciones UTF-16 y UTF-32 UTF-32, UTF-16 y UTF-8 son esquemas de codificación de caracteres para el conjunto de caracteres de codificación estándar Unicode. UTF-16 utiliza una o dos unidades de código de 16 bits no asignadas. Puntos de código Unicode; UTF-32 representa cada punto de código Unicode como un entero de 32 bits del mismo valor.