考虑一个问题,如何获得utf8的字符串?
#include <boost/locale.hpp> int main() { std::string gbk_str = "你好"; std::string utf8 = boost::locale::conv::to_utf<char>(gbk_str, "GBK"); }
在windows环境下的vs20xx中,"你好"存储在gbk_str中的编码格式是GB2312。所以需要一个转换操作,才能得到utf8字符串。
C++17到来后,出现了u8
std::string utf8 = u8"你好";
这里注意的一个问题是:数据,和处理数据的程序的一致性。
把字符串送到控制台显示,想要不得到乱码,必须符合控制台当前选择的字符集。
把字符串送到数据库(例如mysql),想要不报错,也必须符合数据库字段中选择的字符集。
对于程序源文件,想要让开发工具正常显示程序文本中的字符,也必须是源文件存储的字符与开发工具当前选定的字符集一致。
std::wstring str = L"你好";
str在内存中将以UTF16编码存在,占用3个short的空间。如何在windows下输出到控制台?
std::wstring str = L"你好"; std::wcout.imbue(std::locale("")); std::wcout << str << std::endl;
必须先让wcout切换到当前默认的locale,因为当前的操作系统是中文,所以wcout知道了应该把国际UNICODE码转为中国本地的GB2312码。
把str通过MySQLAPI接口发送到数据库,必须先转换成utf8编码。
看来,这些过程还是比较麻烦的。如果现在按照utf8 everywhere的思想,让各个子系统全部utf8化,这样可以减少很多不必要的错误。
大趋势就是utf8化。
原文链接: https://www.cnblogs.com/thomas76/p/8609946.html
欢迎关注
微信关注下方公众号,第一时间获取干货硬货;公众号内回复【pdf】免费获取数百本计算机经典书籍;
也有高质量的技术群,里面有嵌入式、搜广推等BAT大佬
原创文章受到原创版权保护。转载请注明出处:https://www.ccppcoding.com/archives/397548
非原创文章文中已经注明原地址,如有侵权,联系删除
关注公众号【高性能架构探索】,第一时间获取最新文章
转载文章受原作者版权保护。转载请注明原作者出处!