一、是什么？

「全角」和「半角」是指计算机中CJK 字符的显示格式。（读完全文就可知，这是个不算太严谨但可以稍加补充解释，就能严谨的定义）

字符存储空间

在计算机字符被设计时，西方字符，例如拉丁字母、符号和数字都被归位到了「1字节」所能表示的「256」个空间中，这表现在「ASCII」字符集和「ISO-8859-1」字符集中。因此，这些字符也被称为: SBCS (Single Byte Character Set, 单字节字符集)。随着计算机向全世界的普及和发展，在东亚地区（中、日、韩），由于这些国家的字符太多，所以必须使用「2个字节」来编码使得能够容纳「65536」个字符。这些由「2字节」编码的字符则称为：DBCS (Double Byte Character Set)。当然也有「3字节」字符，不过与主题无关这里不再赘述。
CJK 字符导致全角和半角

计算机显示终端在使用「等宽字体 (monospaced font)」时，SBCS 字符会被使用一个固定的宽度来显示（例如x像素）。而由于实践经验和美学原因，在包含CJK 字符的显示情况下，CJK 字符必须显示为两倍SBCS 字符的宽度才能美观和整洁。这种显示格式被定义为： 「半角 (Half Width)」和「全角 (Full Width)」，即全角字符的显示宽度2倍于半角字符。
存储空间和显示宽度的关系

全角首先出现在CJK 地区性编码中。在CJK 地区性编码（如GBK）中，ASCII 字符一般会被算为1字节，而本地区自己的字符一般被算为2字节，这种情况下：全角不仅宽度是半角的2倍，存储空间也是。

在Unicode 编码中，兼容收录了这些CJK 全角字符，但是在Unicode 下：它们的显示宽度和存储空间已经不在是之前简单的对应关系了，下文会继续详述。

二、分类

1. 基本分类

上文还没有涉及一个问题：“哪些字符是「全角」或「半角」？”

计算机已经深入世界每个角落，而Unicode 编码 （Unicode 查询工具）是全世界最通用的字符编码。所以，这里我们只关心Unicode 编码下哪些字符是「全角」和「半角」：

扫描二维码关注公众号，回复： 1055548 查看本文章

「半角」
- 「1字节」范围内的字符均为「半角」字符。
- 「2字节」范围内跟CJK 不相关的字符也基本是「半角」字符。
- 「2字节」范围内，特别的，有少量日文和韩文字符有对应的「半角」副本。
「全角」
- 「2字节」范围内CJK 相关字符基本是「全角」字符。
- 「2字节」范围内，特别的，有一份ASCII 字符的「全角」副本。

2. Unicode区间：半角和全角格式(Halfwidth and Fullwidth Forms)

行文总是说到“基本”、“特别的”两词可能会使你困惑，但这只是为了严谨。因为Unicode 中有一些字符同时拥有「全角」和「半角」两种版本，即CJK 字符也有「半角」版本，而ASCII 字符也有「全角」版本。这些字符定义在区间U+FF00 - U+FFEF中，此区间学名为Halfwidth and Fullwidth Forms ，其中包含4类全角或半角字符：

这里写图片描述

ASCII 的全角副本

U+0021 - U+007E : 在包含CJK 字符的显示情况下，为了使所有字符显示整齐划一，就将ASCII 半角字符做了一份全角的副本。

字符	半角	全角	解释
空格	U+0020	U+3000	U+FF00闲置，因为全角空格在U+3000 已有
除空格外的ASCII	U+0021 - U+007E	U+FF01 - U+FF5E

日文的半角副本

U+FF61 - FF9F : 日文的半角片假名。

字符	半角	全角	解释
所有	U+FF61 - U+FF9F	U+3002 - U+309C	全角的区间不是单调递增的

韩文的半角副本

U+FFA0 - FFDC : 韩文的半角兼容性jamo 字符。

字符	半角	全角
一个空白符号	U+FFA0	U+3164
其它所有	U+FFA1 - U+FFDC	U+3131 - U+3163

其它

字符	半角	全角
一些Latin1字符如¢	U+00A2	U+FFE0
其它一些	具体看

总结一下，可以粗略的认为：「全角」字符是全部CJK 相关的字符（当然，要把ASCII 的副本算作CJK 字符，还要去除那些日文和韩文的半角副本）。

三、Java 工具代码

根据上文所述，我们知道在Unicode 中要完整的找出哪些是全角字符，哪些是半角字符其实相当麻烦，因为它们不太规则的散落在各个区间中。并且我也觉得这种需求也没什么价值，为什么这么说？因为绝大部分人根本没搞懂什么是「全角」什么是「半角」……

其实大多数人想要的应该是：操作那些有全角或半角副本的字符，即Halfwidth and Fullwidth Forms 区间的字符，更精确点其实是：ASCII 相关。这样，这里就只提供了如下的Java 工具类：

ASCII 全角半角判断与互转

public class HalfWidthAndFullWidthFormsUtils {

    public static boolean isASCIIHalf(final char c) {
        return c >= 0x0020 && c <= 0x007E;
    }

    public static boolean isASCIIFull(final char c) {
        return (c >= 0xFF01 && c <= 0xFF5E) || c == 0x3000;
    }

    public static char convertASCIIHalf2Full(final char c) {
        if (!isASCIIHalf(c)) {
            return c;
        }
        // 0xFEE0 == 65248
        return c == 0x0020 ? 0x3000 : (char)(c + 0xFEE0);
    }

    public static char convertASCIIFull2Half(final char c) {
        if (!isASCIIFull(c)) {
            return c;
        }
        // 0xFEE0 == 65248
        return c == 0x3000 ? 0x0020 : (char)(c - 0xFEE0);
    }
}

参考文献：

[1] SBCS https://en.wikipedia.org/wiki/SBCS

[2] DBCS https://en.wikipedia.org/wiki/DBCS

[3] Unicode 查询工具 https://unicode-table.com/cn/

[4] U+FF00 - U+FFEF http://www.unicode.org/charts/PDF/UFF00.pdf

[5] Halfwidth and Fullwidth Forms https://en.wikipedia.org/wiki/Halfwidth_and_fullwidth_forms

[6] 全形和半形 https://zh.wikipedia.org/wiki/%E5%85%A8%E5%BD%A2%E5%92%8C%E5%8D%8A%E5%BD%A2

全角和半角

一、是什么？

二、分类

1. 基本分类

2. Unicode区间：半角和全角格式(Halfwidth and Fullwidth Forms)

三、Java 工具代码

猜你喜欢