Red de conocimiento informático - Conocimiento de la instalación - Preguntas sobre juegos de caracteres, qué es Unicode, qué es UTF-8

Preguntas sobre juegos de caracteres, qué es Unicode, qué es UTF-8

Unicode es un (juego de caracteres codificados.n), que corresponde a una tabla de fuentes que contiene específicamente caracteres para el juego de caracteres codificados Unicode.

Una codificación Unicode corresponde a un carácter en una tabla de fuentes Unicode. Se puede decir que una codificación Unicode es el número de secuencia de un carácter en la tabla de fuentes Unicode.

(codificación Unicode.n) es un número binario.

Para lograr su propósito de contener todos los caracteres del mundo, Unicode adopta la regla de múltiples bytes para representar un carácter. Cuatro bytes, un byte tiene ocho bits y un bit puede tener 0 y 1. Para dos estados, un byte puede tener 256 estados y N bytes pueden tener 256 a la enésima potencia. Cada estado corresponde a un número binario, por lo que varios bytes pueden representar más caracteres.

UTF-8 es un esquema de codificación de caracteres que codifica Unicode (es decir, codifica números binarios). El esquema de codificación de caracteres asigna un número binario a una secuencia de bytes.

¿Por qué se debe volver a codificar Unicode? Debido a que Unicode es un carácter de longitud fija (carácter codificado.n), el problema causado por este método es:

Supongamos que el valor binario 00000001 es La codificación del carácter A en sí solo requiere que se almacene un byte en la computadora. Sin embargo, debido a que Unicode tiene una longitud fija de 4 bytes, la codificación de A se convierte en 00000000 00000000 00000000 00000001, lo que requiere que se almacenen cuatro bytes en la computadora. , lo que a su vez provoca una sobrecarga de almacenamiento muy grande: si un disco duro originalmente podía almacenar cuatro caracteres A, solo puede almacenar un carácter A.

Entonces, si desea utilizar la tabla de fuentes grande de Unicode y ahorrar espacio de almacenamiento, debe volver a codificar Unicode, y se basa en la codificación de longitud variable del contenido (codificación Unicode.n) --- UTF-8 es un esquema de codificación de caracteres de longitud variable para (codificación Unicode.n).

El esquema de codificación de caracteres UTF-8 determina cómo se almacena (codificación Unicode.n) en la computadora.

(Codificación Unicode.n) también se puede considerar como un nuevo número binario después de haber sido codificado mediante el esquema de codificación de caracteres UTF-8 (normalmente se utilizan caracteres de dígitos hexadecimales para representar este nuevo valor binario, su directo relación es que el valor representado por este carácter hexadecimal es igual al valor de este número binario).