关于UTF-8的BOM头问题

php获取文件内容,按行切割成数组,在postman中打印如下:

第一个元素长度看起来是5,实际打印显示为8,下图暴漏出来好像是有空格

至少这几种情况会引发一些问题:

1、这种奇怪的字符串作为json的键

2、字符串用 === 比较

3、数据库唯一索引,这种奇怪的字符串 与 正常字符串也会被同时写入数据库

原因:

何谓BOM?BOM的全称叫做"Byte Order Mard".在utf-8文件中常用BOM来表明这个文件是UTF-8文件,而BOM的本意实在utf16中用来表示高低字节序列的。在字节流之前有BOM表示采用低字节序列(低字节在前面),而utf8不用考虑字节序列,所以其实有无BOM都可以。这就解释了为什么会多出三个字符!

处理方式:检测是否有bom,然后截取掉,把可疑字符串用以下函数处理:

扫描二维码关注公众号,回复: 4867823 查看本文章
function removeBom(&$contents) {
    $charset[1] = substr($contents, 0, 1); 
    $charset[2] = substr($contents, 1, 1); 
    $charset[3] = substr($contents, 2, 1); */
    if (ord($charset[1]) == 239 && ord($charset[2]) == 187 && ord($charset[3]) == 191) { 
        $contents = substr($contents, 3);
    }
}

果然,人生处处都是坑

猜你喜欢

转载自blog.csdn.net/weixin_38230961/article/details/86287946