C++：截取字符串中的汉字

1、
const char *str = "test测试test";
while(*str)
{
 //这里只需要判断第一个字节大于0x80就行了，前提是输入的是合法的GBK字符串
 //原因在于，如果第一个字节大于0x80，那么它必然和后面一个字节一起组成一个汉字
 //所以就没有必要再去判断后面一个字节了
 //再强调一下，前提条件是输入合法的GBK字符串
 if(*str > 0x80)
 {
 // 汉字，计数器++
 str += 2;//是汉字自然就该直接+2了
 }
 else
 {
 str++；
 }
}
 
 
2、
参看下面的字符串转换函数。
 /** 
         *  用getBytes(encoding)：返回字符串的一个byte数组

         *  当b[0]为  63时，应该是转码错误  
         *  A、不乱码的汉字字符串：  
 
*  1、encoding用GB2312时，每byte是负数；  
         *
2、encoding用ISO8859_1时，b[i]全是63。 
         *  B、乱码的汉字字符串：  
         *
1、encoding用ISO8859_1时，每byte也是负数；  
         *
2、encoding用GB2312时，b[i]大部分是63。  
         *  C、英文字符串  
         *
1、encoding用ISO8859_1和GB2312时，每byte都大于0；  
         *
总结：给定一个字符串，用getBytes("iso8859_1")  
         *  1、如果b[i]有63，不用转码；  A-2

         *  2、如果b[i]全大于0，那么为英文字符串，不用转码；  B-1  
         *
3、如果b[i]有小于0的，那么已经乱码，要转码。  C-1  
         */  
       private  static
String  toGb2312(String  str)  {  
               if  (str  ==  null)
return  null;  
               String  retStr  =  str;  
 
byte  b[];  
               try  {  
                       b  =
str.getBytes("ISO8859_1"); 
                       for  (int  i  =  0;  i  <  b.length;  i++)  {

                               byte  b1  =  b[i];

                               if  (b1  ==  63)

                                       break;    //1

                               else  if  (b1  >  0)

                                       continue;//2

                               else  if  (b1  <  0)  {
//不可能为0，0为字符串结束符  
                                       retStr  =  new
String(b,  "GB2312");  
                                       break;

                               }  
                       }

               }  catch  (UnsupportedEncodingException  e)  {

                       //  e.printStackTrace();   
               }

               return  retStr;  
       } 
 
 
3、
unsigned char *str = "test测试test";
int length;
int i;
 
length = strlen(str);
for (i = 0; i < length - 1; i++)
{
 if ( *str >= 0x81 && *str <= 0xFE
 && *(str + 1) >= 0x40 && *(str + 1) <= 0xFE)
 {
 // 汉字
 }
}
 
unsignedchar*str="test测试test";//把字符串换成“汉A”试试，结果为2
有人说：“一个GBK汉字要占两个char空间(二字节），而且第一个字节里的值是小于0的。可以据此判断是否为汉字。”
1、为什么第一个字节的值小于0呢？
2、如果仅通过判断第一个字节如果小于0，则该字节和下一个字节就组成一个汉字，这种逻辑是否保险？
3、因为还看到有人说，GBK编码的汉字有高位和低位两位，第一个是低位吧？需要第一个字节在160-254之间，第二个字节在64-254之间，这样是不是比2中提到的方法要保险？
4、如果DB中的字符集是SIMPLIFIED CHINESE_CHINA.ZHS16GBK，这个是GBK字符集？GBK兼容GB2312
 
似乎有些字符集中有些汉字占三个字节
 
“通过判断第一个字节如果小于0，则该字节和下一个字节就组成一个汉字”
 
//GBK汉字内码范围
//81-A0 ,40-7E 80-FE
//AA-AF ,40-7E 80-A0
//B0-D6 ,40-7E 80-FE
//D7 ,40-7E 80-F9
//D8-F7 ,40-7E 80-FE
//F8-FE ,40-7E 80-A0
例如：//81-A0 ,40-7E 80-FE
表示字符的ascii码要在129-160，64-126，128-254这三个区间段内
 
 
4、
在工作中，遇到要截取字符串在屏幕上显示出来，因为字符串带有汉字，如果截取不好，会引起乱码，写了下面的函数
在uclinux下与VC6.0中测试可以通过。
view plaincopy to clipboardprint?
   1. /*截取字符串
   2. name :要截取的字符串
   3. store:要存储的字符串
   4. len:要截取的长度
   5. */ 
   6. void split_name( char * name , char * store , int len ) 
   7. { 
   8.     int i= 0 ; 
   9.     char strTemp[L(NAMEL)]={0}; 
  10.      
  11.     if ( strlen(name)
  12.     { 
  13.         strcpy( store, name );  *name=0; 
  14.         return ; 
  15.     } 
  16.  
  17.     //从第１个字节开始判断 
  18.     while( i < len ) 
  19.     { 
  20.         if ( name[i]>>7&1 && name[i+1]>>7&1 )       //if ( name[i] < 0 && name[i+1] < 0 ) 
  21.             i = i + 2 ; 
  22.         else 
  23.             i = i + 1 ; 
  24.     } 
  25.     i = i > len ? i-3 :i-1; 
  26.     strncpy( store , name , i+1 ); //截取前i+1位 
  27.     *(store+i+1)=0; 
  28.     strcpy( strTemp , name + i + 1 ); 
  29.     strcpy( name , strTemp ); 
  30. } 

原文链接: https://www.cnblogs.com/shenchao/archive/2013/05/02/3055129.html

欢迎关注

微信关注下方公众号，第一时间获取干货硬货；公众号内回复【pdf】免费获取数百本计算机经典书籍

原创文章受到原创版权保护。转载请注明出处：https://www.ccppcoding.com/archives/86793

非原创文章文中已经注明原地址，如有侵权，联系删除

关注公众号【高性能架构探索】，第一时间获取最新文章

转载文章受原作者版权保护。转载请注明原作者出处！

C++：截取字符串中的汉字

相关推荐