Red de conocimiento informático - Conocimiento informático - Después de leer la novela, la abrí con mi cuaderno y lo que salió fue un desastre. Mientras el archivo TXT esté lleno de cosas desordenadas, no puedo entenderlo en absoluto.

Después de leer la novela, la abrí con mi cuaderno y lo que salió fue un desastre. Mientras el archivo TXT esté lleno de cosas desordenadas, no puedo entenderlo en absoluto.

Abra el documento de texto, haga clic en Guardar como y seleccione Guardar ANSI en el código siguiente. Probar.

Soluciones generales para caracteres confusos:

1. Convertir codificación. Generalmente, puede probar Big5, GBK, UTF-8 (una aplicación UTF-8 (Unicode, incluidas las figuras más importantes del mundo) Si el chino no está involucrado, puede probar JIS (japonés), KR (coreano) y otros. codificaciones de caracteres nuevamente. Radical La solución es usar el mismo sistema de codificación para ambos lados, como UTF8, siempre que el usuario tenga el archivo de fuente correspondiente, el texto se puede mostrar correctamente. unifique el sistema de codificación.

2. Convierta la fuente. Si aparece el texto incorrecto, puede ser que no haya caracteres correspondientes en el archivo de fuente. el archivo de fuente es incorrecto. Los caracteres chinos que deberían mostrarse se convierten en números, como el chino y otras codificaciones Unicode. Puede copiar esta parte, * * almacenarla como un archivo html y luego abrirla con un navegador para decodificarla.

4. Otros lo tienen. El método de decodificación depende del software y del entorno real, y requiere intentos constantes de decodificación, especialmente cuando no sabemos qué sistema de codificación se utilizó inicialmente. p>

5. A veces aparecen caracteres confusos al ingresar caracteres chinos, pero esta situación rara vez ocurre. La razón principal es que la codificación utilizada por el método de entrada no coincide con la codificación de fuente generada por el editor. resuelva el problema convirtiendo la fuente. Por ejemplo, si el método de entrada de codificación GBK está instalado en un sistema que solo admite Big5, las palabras ingresadas no se pueden mostrar correctamente, debe elegir el método de entrada de codificación Big5 o instalar la entrada. método en el sistema GBK

6. Los caracteres confusos causados ​​por idiomas extranjeros solo se pueden convertir a archivos de fuentes que admitan idiomas extranjeros

Cuando abre el Bloc de notas. Windows y desea guardar este archivo, verá ANSI, Unicode, Unicode Bigendian y UTF-8 en las opciones de codificación. /p>

¿Cuáles son las diferencias? Explíquenos este problema en términos muy simples.

Conozca nuestros métodos de codificación comunes:

La codificación ASCII es el conjunto de caracteres y la codificación más utilizados en las computadoras. > O8859-1 parece ser muy simple. ¿Por qué todavía se usa? El código de sección se ajusta a la unidad de expresión más básica de la computadora, por lo que en muchos casos todavía está representado por el código ISO-8859-1. En muchos protocolos, esta codificación se utiliza de forma predeterminada.

Unicode (Código uniforme, Código universal, Código único) es una codificación de caracteres utilizada por las computadoras. Por lo general, nos encontramos con demasiados UTF-8. implementación de codificación Unicode

El conjunto de caracteres GB2312 es un conjunto de caracteres chino simplificado; el conjunto de caracteres BIG5 es * * El conjunto de caracteres chino tradicional es un conjunto de palabras simples y complejos, incluido el conjunto de palabras GB, la palabra BIG5; conjunto y algunos símbolos.

GB18030 es un estándar obligatorio de conjuntos de caracteres chinos formulado por el estado. Su introducción ha aportado un estándar unificado para los conjuntos de caracteres chinos.

Los sistemas Linux utilizan la codificación ISO-8859-1 de forma predeterminada y los sistemas Win32 utilizan la codificación GB2312 de forma predeterminada.

Explicación de ANSI, Unicode, Unicode big endian y UTF-8;

Codificación ANSI:

Unicode y ansi son representaciones de códigos de caracteres.

Para admitir más idiomas, generalmente se usan dos bytes de 0x80 a 0xFF para representar un carácter.

Por ejemplo, en el sistema operativo chino, el carácter chino "中" se almacena en [0xD6, 0xD0].

Diferentes países y regiones han formulado diferentes estándares, lo que ha dado como resultado sus propios estándares de codificación, como GB2312, BIG5 y JIS. Estos métodos de codificación extendida de caracteres chinos que utilizan 2 bytes para representar un carácter se denominan codificación ANSI. En el sistema chino simplificado, el código ANSI representa el código GB2312 y en el sistema operativo japonés, el código ANSI representa el código JIS.

Los diferentes códigos ANSI son incompatibles entre sí. Al intercambiar información internacionalmente, no es posible almacenar caracteres pertenecientes a dos idiomas en el mismo texto codificado ANSI.

Codificación Unicode:

En el campo de la informática, Unicode (Código Uniforme, Código Universal, Código Único, Código Universal Estándar) es un estándar en la industria, que permite a las computadoras Presentar los sistemas mundiales en docenas de idiomas.

Unicode fue desarrollado basándose en el estándar Universal Character Set, que también se publica en forma de libro ("Unicode Standard", quinta edición publicada por Addison-Wesley Professional, ISBN-10: 0321480910).

Unicode contiene más de 100.000 caracteres (en 2005, el carácter número 100.000 de Unicode fue adoptado y reconocido como uno de los estándares), un conjunto de tablas de códigos que pueden usarse como referencia visual y un conjunto de métodos de codificación y un conjunto de códigos de caracteres estándar, así como un conjunto de enumeraciones que contienen características de caracteres como superíndices y subíndices. El éxito de Unicode en el reconocimiento de juegos de caracteres le ha permitido ser adoptado amplia y favorablemente en el campo de la internacionalización y localización de software informático.

En los últimos años, el estándar ha sido adoptado por muchas tecnologías nuevas, incluido el lenguaje de marcado extensible (XML), el lenguaje de programación Java y los sistemas operativos más recientes.

¿Por qué utilizar Unicode?

Básicamente, las computadoras sólo manejan números. Especifican un número para almacenar letras u otros caracteres. Antes de que se creara Unicode, había cientos de sistemas de codificación que especificaban estos números. Ningún código puede contener suficientes caracteres: por ejemplo, los homófonos europeos por sí solos requerirían varios códigos diferentes para cubrir todos los idiomas. Incluso dentro de un solo idioma, como el inglés, no se puede aplicar ninguna codificación a todas las letras, signos de puntuación y símbolos técnicos comunes. Estos sistemas de codificación también pueden entrar en conflicto entre sí. Es decir, dos codificaciones pueden usar el mismo número para representar dos caracteres diferentes, o usar números diferentes para representar el mismo carácter. Cualquier computadora (especialmente un servidor) necesita admitir muchos códigos diferentes, pero cada vez que los datos pasan a través de diferentes códigos o plataformas, siempre existe el peligro de que estos datos se corrompan.

Unicode big endian y Unicode little endian

Big endian y little endian son formas diferentes en las que la CPU procesa números de varios bytes. Por ejemplo, la codificación Unicode del chino es 6C49. Entonces, al escribir en un archivo, ¿debería escribir 6C delante o 49 delante? Si se escribe 6C delante, es big endian. O escribe 49 delante, que es little endian.

La palabra "endian" proviene de "Los viajes de Gulliver". La guerra civil del villano comenzó sobre si el huevo se rompía por el extremo grande o por el pequeño, se produjeron seis rebeliones, un emperador murió y otro perdió su trono.

Normalmente traducimos endian al orden de bytes y llamamos a big endian y little endian "final grande" y "extremo pequeño" respectivamente.

Codificación UTF_8

UTF-8 es una codificación de caracteres de longitud variable de UNICODE, fundada por Ken Thompson en 1992. Ahora ha sido estandarizado como RFC 3629. UTF-8 codifica caracteres UNICODE utilizando de 1 a 6 bytes.

Si un carácter UNICODE está representado por 2 bytes, la codificación en UTF-8 puede requerir 3 bytes, y si un carácter UNICODE está representado por 4 bytes, la codificación en UTF-8 puede requerir 6 bytes. Codificar un carácter UNICODE con 4 o 6 bytes puede ser demasiado, pero estos caracteres UNICODE rara vez se encuentran.

Bueno, mira, debería ser útil O(∩_∩)O~