getBytes("UTF-16")长度多2的原因 - 代码天地

getBytes("UTF-16")长度多2的原因

编程语言 2018-05-10 09:14:30 阅读次数: 1

public class Main {
    public static void main(String[] args) throws UnsupportedEncodingException {
        String a="a";
        System.out.println(a.length());
        byte[] bb=  a.getBytes("UTF-16");
        System.out.println(binary(bb,16));


        System.out.println(bb.length);

    }

    public static String binary(byte[] bytes, int radix){
        return new BigInteger(1, bytes).toString(radix);
    }
}

结果是
1
feff0061
4
为什么getBytes("UTF-16")之后byte数组的长度是4呢？不应该是2吗
我们来具体看下 0061 就是a的二进制表示，那前面的feff是什么东西呢？

在wiki上我们可以看到：
UTF-16的大尾序和小尾序存储形式都在用。一般来说，以Macintosh制作或存储的文字使用大尾序格式，以Microsoft或Linux制作或存储的文字使用小尾序格式。
为了弄清楚UTF-16文件的大小尾序，在UTF-16文件的开首，都会放置一个U+FEFF字符作为Byte Order Mark（UTF-16LE以FF FE代表，UTF-16BE以FE FF代表），以显示这个文本文件是以UTF-16编码，其中U+FEFF字符在UNICODE中代表的意义是ZERO WIDTH NO-BREAK SPACE，顾名思义，它是个没有宽度也没有断字的空白。

原来FE FF代表 UTF-16BE ，就是大尾序格式，显示的是0061
可以看到我们换成
byte[] bb= a.getBytes("UTF-16BE"); 得到的结果就是0061了
反之
byte[] bb= a.getBytes("UTF-16LE"); 得到的结果就是6100了

结论：getBytes("UTF-16"）的byte长度会比我们预期的多2，就是两个byte开头要指定是大尾格式，还是小尾格式。。

猜你喜欢

转载自huangyunbin.iteye.com/blog/2375464

getBytes("UTF-16")长度多2的原因

UTF-16

utf-16解码

UTF-16理解学习（java）

[转贴]细说：Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4 细说：Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4

UTF-8，UTF-16和UTF-32

Unicode与UTF-8、UTF-16、UTF-32

细说：Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4 评注

UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介绍

计算机存储文字码的底层实现和JAVA选择UTF-16存储char的原因

Unicode(UTF-8, UTF-16)令人混淆的概念

Java基础语法-Unicode、UTF-8、UTF-16

Unicode UTF-8 UTF-16的关系

Java中Unicode与utf-8、utf-16的关系

Unicode 和 UTF-8、UTF-16之间的区别

Java读写UTF-16 little Endian文件

以Unicode(UTF-16 LE)编码保存文本

Unicode编码详解(四)：UTF-16编码

C++：UTF-8、UTF-16、UTF-32之间的编码转换

ascII,unicode,utf-8 utf-16,utf-32,BOM 的解说(一) mark

Unicode，UTF-32,UTF-16,UTF-8到底是啥关系？

Unicode、UTF-8、UTF-16、UTF-32的概念和相关用法

Unicode、UCS、BMP、UTF-8、UTF-16、UTF-32

字符编码方式及判断整理（ANSI，Unicode,utf-8,utf-16,utf-32）

unicode、gbk、iso8859-1、ascii、utf-8、utf-16、utf-32

Unicode和UTF-8、UTF-16、UTF-32之间的关系

ASCII，GBK，和Unicode的UTF-8，UTF-16，UTF-32阐述

Unicode详解（附UTF-8、UTF-16和UTF-32）

Unicode字符集、UTF-8、UTF-16、UTF-32

将UCS-2 Little Endian(即 utf-16)编码的txt文件批量转化为utf-8编码（python）

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

tensorflow 笔记：二（北大）

fork函数详解

unity单利模板

mac下的特殊键位指引（转自apple）

c语言入门-注释

Python--多任务[线程，进程，协程]

深度对抗学习在图像分割和超分辨率中的应用

【转】【Maven】Project configuration is not up-to-date with pom.xml错误解决方法

基本数据类型与常量池

部署自己的Intell项目的经历

每日归档

更多

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)