判断一个字符或者字符串是否为中文字符

在Java语言中,默认使用Unicode编码方式,每个字符占用两个字节,因此可以用来存储中文。虽然String是由char所组成的,但是它采用了更加灵活的方式来存储,即英文占用一个字符,中文占用两个字符,采用这种存储的方式可以减少所需要的内存,提高存储效率。

1. 判断字符串中是否包含中文字符。(注意在UTF-8环境下和GBK环境下,中文 占的字节数不一样,在UTF-8环境下中文占三个字节,而在GBK环境下,中文字符占2个字节)

        String string = "你好abc";
        System.out.println(string.getBytes().length);   //字节长度
        System.out.println(string.length());    //字符串长度
        System.out.println(string.getBytes().length == string.length()); //字节长度不等于字符串

结果为:

7
5
false

2. 判断字符是否为中文字符

        char ch = '中';
        System.out.println(String.valueOf(ch).matches("[\u4e00-\u9fa5]"));

结果为 true

[\u4e00-\u9fa5] 这个正则中的\u4e00 和\u9fa5 是unicode编码,正好对应对应中文编码的开始和结束的两个值,所以该正则表达式可以判断是否是中文字符编码。

发布了102 篇原创文章 · 获赞 49 · 访问量 6万+

猜你喜欢

转载自blog.csdn.net/SoWhatWorld/article/details/104992259