中国語の文字列の長さを取得するシンプルで素晴らしい方法

中国語の文字列の長さを取得するシンプルで素晴らしい方法

今夜フレームワークのフォームバリデーションクラスを書く際に、ある文字列の長さが規定の範囲内かどうかを判定する必要があり、当然PHPのstrlen関数を思い出しました。

$str = 'Hello world!';
echo strlen($str);      // 输出12

ただし、PHP の組み込み関数では、strlen とmb_strlen の両方で、文字列が占めるバイト数を計算して長さを計算します。エンコード状況が異なると、中国語が占めるバイト数も異なります。GBK/GB2312 では中国語の文字は 2 バイトを占有しますが、UTF-8 では中国語の文字は 3 バイトを占有します。

$str = '你好,世界!';
echo strlen($str);      // GBK或GB2312下输出12,UTF-8下输出18

文字列の長さを判断するときは、多くの場合、文字列が占めるバイト数ではなく、文字数を判断する必要があります。たとえば、UTF-8 での次の PHP コードです。

$name = '张耕畅';
$len = strlen($name);
// 输出 FALSE,因为在UTF-8下三个中文占9个字节
if($len >= 3 && $len <= 8){
    
    
  echo 'TRUE';
}else{
    
    
  echo 'FALSE';
}

では、中国語の文字列の長さを取得する便利で実用的な方法はあるのでしょうか? 中国語の文字数は正規化によって計算でき、GBK/GB2312 エンコードでは 2 で割られ、UTF-8 エンコードでは 3 で割られ、最後に非中国語文字列の長さを加算しますが、これは多すぎます。 WordPress にはのようなより美しいコードがあります。

$str = 'Hello,世界!';
preg_match_all('/./us', $str, $match);
echo count($match[0]);  // 输出9

このアイデアは、正規表現を使用して文字列を個々の文字に分割し、count を直接使用して一致した文字の数を計算することであり、これが目的の結果です。

おすすめ

転載: blog.csdn.net/heshihu2019/article/details/132142277