Bloc de notas de Windows ANSI, Unicode, UTF-8 codificación de estos tres modos ¿Cuál es la diferencia?

Autor: Liang Hai
enlace: https: //www.zhihu.com/question/20650946/answer/15745831
Fuente: sabemos casi
con derechos de autor por el autor. reimpresión comercial póngase en contacto con el autor autorizada, reimpresión no comercial por favor indique la fuente.

Respuesta corta. Ningún esfuerzo para verificar algunos de los detalles, si es incorrecto, por favor señalar también.

Sugerencia de palabra: cuando se trata de razones de compatibilidad, no utilice el Bloc de notas, guardarlo como UTF-8 sin BOM con el editor de texto profesional.

Si es para la compatibilidad entre plataformas, necesita saber, en el contexto de Windows Bloc de notas:

Los llamados medios "ANSI" que corresponde a la actual configuración regional del sistema legado (legacy) de codificación. [1]
El llamado "Unicode" se refiere a la codificación UTF-16 con la lista de materiales de ascendente hacia la izquierda. [2]
El llamado "UTF-8" se refiere a la lista de materiales de banda de UTF-8. [3]

GBK y otra herencia de codificación más problemas, por lo que a menos que sepa lo que está haciendo de otra manera no ser utilizado de nuevo.
UTF-16 es realmente muy bien en teoría, pero también indican el orden de bytes, pero UTF-16, después de todo, no se usa comúnmente.
UTF-8 compatibilidad de código sería lo mejor, pero los problemas de Windows tan a menudo elegido para agregar lista de materiales.

Por lo tanto, la compatibilidad entre plataformas no es realmente la mejor Bloc de notas.
Le recomendamos que guarde con Notepad ++ y otro editor de texto profesional normal a UTF-8 sin la lista de materiales.

Además, si el texto todos los caracteres del rango ASCII, de hecho, el Bloc de notas para guardar los archivos llamados "ANSI", y ASCII o UTF-8 sin BOM del mismo.

Ruan Yifeng que leí <codificación de caracteres Nota: ASCII, Unicode y UTF-8> es, en efecto bien conocido, pero el artículo se podría ver que en realidad no era totalmente clara relación entre Unicode y UTF-8 de. Todavía mal guiados redacción de la confusión de Windows. De hecho, hace unos años, después de leer el artículo que todavía está confundido, y finalmente ven su Wikipedia ver para entender.
Por lo tanto, no se recomienda el artículo.

Sobre el conjunto de caracteres (juego de caracteres) y codificación (codificación), algunas respuestas parecían confundidos.

Para ASCII, GB 2312, Big5, GBK , GB 18030 programas heredados y similares, básicamente único programa utilizando un esquema de codificación de juego de caracteres.
Por ejemplo, ASCII Esta norma especifica el carácter en sí directamente y codificación de caracteres de la forma, lo que no sólo es el juego de caracteres esquema de codificación; y GB 2312 yardas sólo forman un conjunto de caracteres estándar región, pero de hecho básicamente ser codificados utilizando EUC-CN Por lo tanto las referencias a "GB 2312" también dice que cuando un conjunto de caracteres y programas de la cadena que codifican; GBK y GB 18030 y otra compatible hacia atrás con el programa de GB 2312 es similar.
Así que muchas personas afectadas por estas soluciones heredadas no pueden entender la relación entre el conjunto de caracteres y codificación.

Para Unicode, el conjunto de caracteres y codificación son claramente distinguibles. Unicode UCS estándar / se unificó primer conjunto de caracteres estándar. El estándar Unicode / UCS también define varios esquema de codificación alternativo, referido como "forma codifica" en los documentos de estándares, incluyendo UTF-8, UTF-16 y UTF-32.
Por lo tanto, el programa de Unicode, el conjunto de caracteres Unicode basado en el mismo texto se puede almacenar en una variedad de codificación, transmisión.
Así, con el "Unicode" para referirse a un esquema de codificación es inadecuada y engañosa.

[1] de Windows dice que el "ANSI" es en realidad páginas de códigos de Windows, este modo se selecciona de acuerdo con los códigos específicos regional actual, como Jane en el siguiente escenario es GBK. Estos página de códigos llamó a sí mismo "ANSI" es un sitio de Windows problemas de faltas . Se extienden en ASCII y ASCII debe ser coherente.
[2] El pequeño-endian UTF-16 con llamado "Unicode" de la lista de materiales es el de Windows problemas de faltas . Ventanas de Windows 2000 ha sido desde el principio para apoyar par suplente, por lo que ya es el UTF-16, el "UCS-2" Este argumento ha sido inadecuada. Dentro UCS-2 codificación de caracteres BMP puede variar desde 1,996 UTF-16 está sustituido en la norma Unicode / ISO de (UTF-16 por la perforación de un par suplente de caracteres codificados más allá de BMP). Son más de una década, le ruego que deje un término equivocado ......
[3] a UTF-8 con la lista de materiales que se conoce como "UTF-8" es el de Windows problemas de faltas . Si pasa por alto la lista de materiales, es consistente con ASCII en el rango ASCII. Ver también: "UTF-8 con la lista de materiales" y "la lista de materiales libres de UTF-8" ¿Cuál es la diferencia? https://www.zhihu.com/question/20167122

Este artículo reproducido a partir de: https: //www.zhihu.com/question/20650946/answer/15745831

Bloc de notas de Windows ANSI, Unicode, UTF-8 codificación de estos tres modos ¿Cuál es la diferencia?

Supongo que te gusta