Red de conocimiento informático - Problemas con los teléfonos móviles - ¿Qué son los caracteres Unicode?

¿Qué son los caracteres Unicode?

Unicode es un importante estándar universal de codificación de caracteres para interacción y visualización, que abarca idiomas americanos, europeos, de Oriente Medio, africanos, indios, asiáticos y del Pacífico, así como escrituras antiguas y símbolos profesionales. Unicode permite el intercambio, procesamiento y visualización de texto multilingüe, así como símbolos profesionales y matemáticos comunes. Espera poder resolver cálculos en varios idiomas, como los estándares de caracteres de diferentes países, pero no todos los textos modernos o antiguos son compatibles.

Los caracteres Unicode se pueden utilizar en todas las codificaciones conocidas. Unicode es una nueva codificación de caracteres que sigue el código de caracteres ASCII (Estándar Nacional Estadounidense para Información Interactiva). Define un número y un nombre para cada símbolo, y especifica el carácter y su valor numérico (punto de código), así como el valor binario de. la representación de bits, un valor de 16 bits se define mediante un número hexadecimal y el prefijo (U), como por ejemplo: U 0041 representa A, y su nombre único es LETRA A MAYÚSCULA LATINA. Pero tenga en cuenta: las versiones de JavaScript anteriores a la 1.3 no admiten la codificación Unicode.

Compatibilidad Unicode con ASCII e ISO

Unicode es compatible con caracteres ASCII y es compatible con la mayoría de los programas. Los primeros 128 códigos Unicode tienen los mismos valores de bytes que los códigos ASCII; Los caracteres de U 0020 a U 007E son equivalentes a los códigos ASCII 0x20 a 0x7E. A diferencia del ASCII de 7 bits que admite letras latinas, Unicode establece un valor de 16 bits para cada carácter. Permite decenas de miles de caracteres, como Unicode. La versión 2.0 contiene 38.885 caracteres y también se puede ampliar, como UTF-16, que permite combinar caracteres de 16 bits en un millón o más de caracteres. UTF convierte la codificación en bits binarios reales.

Unicode es totalmente compatible con el estándar internacional ISO/IEC 10646-1; 1993, que es un subconjunto de ISO 10646 y admite ISO UCS-2 (juego de caracteres universal) utilizando dos números octales. La compatibilidad con Unicode en JavaScript 1.3 significa que puede utilizar libremente caracteres nativos y símbolos científicos especiales en sus programas. Unicode proporciona una forma estándar de codificar texto multilingüe y, como es compatible con ASCII, también puede utilizar los caracteres ASCII que desee.

Secuencia de escape Unicode

Puede utilizar la secuencia de escape Unicode en un literal de caracteres, que consta de seis caracteres ASCII: \u más un número hexadecimal de cuatro dígitos. Por ejemplo: \u00A9 representa el símbolo de copyright. Cada secuencia de escape Unicode en JavaScript se interpreta mediante un carácter. La siguiente tabla muestra los caracteres especiales más utilizados y sus valores Unicode.

Categoría Nombre de valor Unicode nombre de formato

En blanco (espacio en blanco) \u0009 Carácter de tabulación lt; TABgt;

\u000B Carácter de tabulación vertical lt; p>

\u000C Carácter de avance de línea lt;

\u0020 Espacio lt;

Valor de carácter de final de línea \u000A Carácter de avance de línea lt; p>

\u000D Carácter de retorno de carrolt; CRgt;

Otros valores de secuencia de escape Unicode \u000b Carácter de retroceso BSgt;

\u0009 Carácter de tabulación horizontal lt;HTgt;

\u0022 Comilla doble"

\u0027 Comilla simple'

\u005C Barra invertida/

Par de JavaScript El uso de secuencias de escape Unicode es diferente de Java Primero, las secuencias de escape no se interpretan como un carácter especial en JavaScript. Por ejemplo, una secuencia de escape de nueva línea en una cadena no termina la función antes de que se interprete la Cadena, si se usa una secuencia de escape en un comentario. JavaScript lo ignorará, si se usa una secuencia de escape en una línea de comentario separada, se interpretará directamente como una cantidad de caracteres Unicode, el compilador de Java interpretará primero la secuencia de escape. carácter (\u000A) en Java, terminará la cadena y provocará un error en Java debido a que los saltos de línea literales no están permitidos en JavaScript, debe usar el carácter \n en JavaScript, no hay diferencia entre los caracteres. dos.

Mostrar caracteres en Unicode

Puede mostrar caracteres en diferentes idiomas. Unicode se utiliza para mostrar caracteres o símbolos profesionales, pero esto requiere un cliente que admita Unicode, como Netscape. Navigator 4.x y el cliente también deben admitir fuentes Unicode y compatibilidad con plataformas operativas. Por ejemplo, Windows 95 solo admite parte de Unicode. Además, para ingresar caracteres que no sean ASCII, debe tener un dispositivo de entrada que admita. todos los caracteres Unicode Un teclado extendido estándar no puede hacer esto, pero podemos usar secuencias de escape Unicode para ingresar caracteres Unicode. Si necesita más información sobre Unicode, consulte la versión 2.0 del sitio web de Unicode Consortium.