c++中wstring 和 string的转换

1.C程序中使用的char类型,是占用一个字节,一共可以表示256个字符。而在32位系统中,char*是占用四个字节的,因为一个指针变量占用的存储空间为4个字节。char类型的编码规则一般为ASCII编码。我在此处测试了一下再GCC中char[]是不可以存储中文字符的(可能是我的编译器没有和编辑器的编码方式不一样,导致出来的结果是乱码的中文),但是在vs中,似乎使用某些优化,char是可以用来存储中文字符的。但是他们都是显示出文字来的,ASCII编码中没有汉字,但是还是显示出来了,这本身存在一些我们不知道的操作(这个内容需要自己来深究)。

在尝试了修改了编码问题后,GCC编译器也可以实现中文的输入了。(待续)

此时,对于这个问题我已经找到了我的答案

普通的char类型是一个正数,是从0-127个编码,而输入中文的字符的值第一个字节都是负数(很难受,好像还是不对),可能是通过数字的符号来判定改符号是一个字节还是两个字节的。因此判定char的编码规则应该不只是Ascii一种。

2.wchar_t在C程序中占用的字节为2个字节,相当于一个无符号短整型。其长度是可变的,根据运行的平台而定,可以是2个字节或者是4个字节。在win32 MSVC环境下,C库中wchar_t的长度为2个字节

typedefine unsigned short wchar_t;/* 16bits*/

wchar_t采用的是unicode编码,unicode的编码是固定的,但是因为其需要2到4个字节,它的存储方法不尽相同。所以会产生不同版本的unicode。

unicode 的一种实现方式 UTF-8。

参见链接https://www.cnblogs.com/kingstarspe/p/ASCII.html

UTF-8的编码规则很简单,只有二条:

1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

(未完待续)

猜你喜欢

转载自www.cnblogs.com/bookdrip/p/9987099.html
今日推荐