字符编码相关

ANSI编码ANSI编码我理解为区域性编码,对于英文字符占用一个字节表示,区域文字占用二个字节表示,如中文.其实对于简体中文系统,ANSI系统对应GB2312编码.

UNICODE
UNICODE编码在第一平面内的文字占用2个字节,第一平面不能表示的文字需要3个字节来表示.
UNICODE编码具体的实现方式有UTF-8,UTF-16L,UTF-16B,UTF-32L,UTF-32B.
C++中wchar_t str=L"abc",该编码对应于UTF-16L.
通常说的BOM指的是大端小端标识.

实例
一UTF-8 CPP文件中有如下语句,wchar_t str = L"中国",最终str显示时是否会乱码呢?
答:会,因为cpp文件中的"中国"是以utf-8编码并存储的,编译时L"中国"操作等价于多字符转宽字符操作,编译器会把"中国"按ANSI码转UNCODE-16L,所以会乱码.

为什么A版本的Windows程序在部分机器上显示会乱码?
因为A版本的程序字符编码方式与编写代码用的机器相关,中文系统ANSI CPP文件会按GB2312编码字符,在其他语种机器上显示时就有可能出现乱码,因为其他语种会
按他们默认的编码方式来解释.

原文链接: https://www.cnblogs.com/275095923/archive/2012/11/27/2790233.html

欢迎关注

微信关注下方公众号,第一时间获取干货硬货;公众号内回复【pdf】免费获取数百本计算机经典书籍

    字符编码相关

原创文章受到原创版权保护。转载请注明出处:https://www.ccppcoding.com/archives/70786

非原创文章文中已经注明原地址,如有侵权,联系删除

关注公众号【高性能架构探索】,第一时间获取最新文章

转载文章受原作者版权保护。转载请注明原作者出处!

(0)
上一篇 2023年2月9日 下午2:30
下一篇 2023年2月9日 下午2:30

相关推荐