JAVA 编码中文问题

计算机编码：

计算机编码,指电脑内部代表字母或数字的方式。

编码单位：

最小的单元是位（bit），接着是字节（Byte），一个字节=8位，英语表示是1 Byte=8 bits 。机器语言的单位Byte。1 KB=1024 Byte; 1 MB=1024 KB; 1 GB=1024 MB ; 1TB=1024 GB。

常见编码：

工作后经常接触的编码方式有如下几种：

ISO-8859-1 ASCII 数字和西欧字母

GBK GB2312 BIG5 中文

UNICODE (统一码，万国码)

其中

ISO-8859-1 包含 ASCII

GB2312 是简体中文，BIG5是繁体中文，GBK同时包含简体和繁体以及日文。

UNICODE 包括了所有的文字，无论中文，英文，藏文，法文，世界所有的文字都包含其中

UNICODE和UTF

不同的编码方式对应不同的棋盘，而UNICODE因为要存放所有的数据，那么它的棋盘是最大的。

不仅如此，棋盘里每个数字都是很长的(4个字节)，因为不仅要表示字母，还要表示汉字等。

如果完全按照UNICODE的方式来存储数据，就会有很大的浪费。

比如在ISO-8859-1中，a 字符对应的数字是0x61

而UNICODE中对应的数字是 0x00000061，倘若一篇文章大部分都是英文字母，那么按照UNICODE的方式进行数据保存就会消耗很多空间

在这种情况下，就出现了UNICODE的各种减肥子编码, 比如UTF-8对数字和字母就使用一个字节，而对汉字就使用3个字节，从而达到了减肥还能保证健康的效果

UTF-8，UTF-16和UTF-32 针对不同类型的数据有不同的减肥效果，一般说来UTF-8是比较常用的方式。

Java采用的是Unicode

写在.java源代码中的汉字，在执行之后，都会变成JVM中的字符。而这些中文字符采用的编码方式，都是使用UNICODE. "中"字对应的UNICODE是4E2D,所以在内存中，实际保存的数据就是十六进制的0x4E2D, 也就是十进制的20013。

public class TestStream {
	public static void main(String[] args) {
		String str = "中";
	}
}

文件的编码方式

记事本：

字符保存在文件中肯定也是以数字形式保存的，即对应在不同的棋盘上的不同的数字

用记事本打开任意文本文件，并且另存为，就能够在编码这里看到一个下拉。

ANSI 这个不是ASCII的意思，而是采用本地编码的意思。如果你是中文的操作系统，就会使GBK，如果是英文的就会是ISO-8859-1

Unicode UNICODE原生的编码方式

Unicode big endian 另一个 UNICODE编码方式

UTF-8 最常见的UTF-8编码方式，数字和字母用一个字节，汉字用3个字节。

eclipse：

eclipse也有类似的编码方式，右键任意文本文件，点击最下面的"property"

就可以看到Text file encoding，也有ISO-8859-1，GBK,UTF-8等等选项。其他的US-ASCII,UTF-16，UTF-16BE,UTF-16LE不常用。

用FileInputStream 字节流正确读取中文

为了能够正确的读取中文内容

1. 必须了解文本是以哪种编码方式保存字符的

2. 使用字节流读取了文本后，再使用对应的编码方式去识别这些数字，得到正确的字符

如本例，一个文件中的内容是字符中，编码方式是GBK，那么读出来的数据一定是D6D0。

再使用GBK编码方式识别D6D0，就能正确的得到字符中

注：在GBK的棋盘上找到的中字后，JVM会自动找到中在UNICODE这个棋盘上对应的数字，并且以UNICODE上的数字保存在内存中。

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
   
public class TestStream {
   
    public static void main(String[] args) {
        File f = new File("E:\\project\\j2se\\src\\test.txt");
        try (FileInputStream fis = new FileInputStream(f);) {
            byte[] all = new byte[(int) f.length()];
            fis.read(all);
   
            //文件中读出来的数据是
            System.out.println("文件中读出来的数据是：");
            for (byte b : all)
            {
                int i = b&0x000000ff;  //只取16进制的后两位
                System.out.println(Integer.toHexString(i));
            }
            System.out.println("把这个数字，放在GBK的棋盘上去：");
            String str = new String(all,"GBK");
            System.out.println(str);
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
   
    }
}

用FileReader 字符流正确读取中文

FileReader得到的是字符，所以一定是已经把字节根据某种编码识别成了字符了，而FileReader使用的编码方式是Charset.defaultCharset()的返回值，如果是中文的操作系统，就是GBK。FileReader是不能手动设置编码方式的，为了使用其他的编码方式，只能使用InputStreamReader来代替，像这样：

new InputStreamReader(new FileInputStream(f),Charset.forName("UTF-8"));

在本例中，用记事本另存为UTF-8格式，然后用UTF-8就能识别对应的中文了。

解释：为什么中字前面有一个?

如果是使用记事本另存为UTF-8的格式，那么在第一个字节有一个标示符，叫做BOM用来标志这个文件是用UTF-8来编码的。

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.nio.charset.Charset;
 
public class TestStream {
 
    public static void main(String[] args) throws UnsupportedEncodingException, FileNotFoundException {
        File f = new File("E:\\project\\j2se\\src\\test.txt");
        System.out.println("默认编码方式:"+Charset.defaultCharset());
        //FileReader得到的是字符，所以一定是已经把字节根据某种编码识别成了字符了
        //而FileReader使用的编码方式是Charset.defaultCharset()的返回值，如果是中文的操作系统，就是GBK
        try (FileReader fr = new FileReader(f)) {
            char[] cs = new char[(int) f.length()];
            fr.read(cs);
            System.out.printf("FileReader会使用默认的编码方式%s,识别出来的字符是：%n",Charset.defaultCharset());
            System.out.println(new String(cs));
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        //FileReader是不能手动设置编码方式的，为了使用其他的编码方式，只能使用InputStreamReader来代替
        //并且使用new InputStreamReader(new FileInputStream(f),Charset.forName("UTF-8")); 这样的形式
        try (InputStreamReader isr = new InputStreamReader(new FileInputStream(f),Charset.forName("UTF-8"))) {
            char[] cs = new char[(int) f.length()];
            isr.read(cs);
            System.out.printf("InputStreamReader 指定编码方式UTF-8,识别出来的字符是：%n");
            System.out.println(new String(cs));
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
         
    }
}

注意：更多编码原理细节可以参考：https://www.w3cschool.cn/javachinesegarbledsolution/3wrm1ill.html

参考来源：
http://how2j.cn/k/io/io-encoding/695.html#nowhere
百度百科

JAVA 编码中文问题

JAVA 编码中文问题

计算机编码：

计算机编码,指电脑内部代表字母或数字的方式。

编码单位：

最小的单元是位（bit），接着是字节（Byte），一个字节=8位，英语表示是1 Byte=8 bits 。机器语言的单位Byte。1 KB=1024 Byte; 1 MB=1024 KB; 1 GB=1024 MB ; 1TB=1024 GB。

常见编码：

工作后经常接触的编码方式有如下几种：

ISO-8859-1 ASCII 数字和西欧字母

GBK GB2312 BIG5 中文

UNICODE (统一码，万国码)

其中

ISO-8859-1 包含 ASCII

GB2312 是简体中文，BIG5是繁体中文，GBK同时包含简体和繁体以及日文。

UNICODE 包括了所有的文字，无论中文，英文，藏文，法文，世界所有的文字都包含其中

UNICODE和UTF

不同的编码方式对应不同的棋盘，而UNICODE因为要存放所有的数据，那么它的棋盘是最大的。

不仅如此，棋盘里每个数字都是很长的(4个字节)，因为不仅要表示字母，还要表示汉字等。

如果完全按照UNICODE的方式来存储数据，就会有很大的浪费。

比如在ISO-8859-1中，a 字符对应的数字是0x61

而UNICODE中对应的数字是 0x00000061，倘若一篇文章大部分都是英文字母，那么按照UNICODE的方式进行数据保存就会消耗很多空间

在这种情况下，就出现了UNICODE的各种减肥子编码, 比如UTF-8对数字和字母就使用一个字节，而对汉字就使用3个字节，从而达到了减肥还能保证健康的效果

UTF-8，UTF-16和UTF-32 针对不同类型的数据有不同的减肥效果，一般说来UTF-8是比较常用的方式。

Java采用的是Unicode

写在.java源代码中的汉字，在执行之后，都会变成JVM中的字符。而这些中文字符采用的编码方式，都是使用UNICODE. "中"字对应的UNICODE是4E2D,所以在内存中，实际保存的数据就是十六进制的0x4E2D, 也就是十进制的20013。

文件的编码方式

记事本：

字符保存在文件中肯定也是以数字形式保存的，即对应在不同的棋盘上的不同的数字

用记事本打开任意文本文件，并且另存为，就能够在编码这里看到一个下拉。

ANSI 这个不是ASCII的意思，而是采用本地编码的意思。如果你是中文的操作系统，就会使GBK，如果是英文的就会是ISO-8859-1

Unicode UNICODE原生的编码方式

Unicode big endian 另一个 UNICODE编码方式

UTF-8 最常见的UTF-8编码方式，数字和字母用一个字节， 汉字用3个字节。

eclipse：

eclipse也有类似的编码方式，右键任意文本文件，点击最下面的"property"

就可以看到Text file encoding，也有ISO-8859-1，GBK,UTF-8等等选项。其他的US-ASCII,UTF-16，UTF-16BE,UTF-16LE不常用。

用FileInputStream 字节流正确读取中文

为了能够正确的读取中文内容

1. 必须了解文本是以哪种编码方式保存字符的

2. 使用字节流读取了文本后，再使用对应的编码方式去识别这些数字，得到正确的字符

如本例，一个文件中的内容是字符中，编码方式是GBK，那么读出来的数据一定是D6D0。

再使用GBK编码方式识别D6D0，就能正确的得到字符中

注： 在GBK的棋盘上找到的中字后，JVM会自动找到中在UNICODE这个棋盘上对应的数字，并且以UNICODE上的数字保存在内存中。

用FileReader 字符流正确读取中文

在本例中，用记事本另存为UTF-8格式，然后用UTF-8就能识别对应的中文了。

解释： 为什么中字前面有一个?

如果是使用记事本另存为UTF-8的格式，那么在第一个字节有一个标示符，叫做BOM用来标志这个文件是用UTF-8来编码的。

注意：更多编码原理细节可以参考：https://www.w3cschool.cn/javachinesegarbledsolution/3wrm1ill.html

猜你喜欢

UTF-8 最常见的UTF-8编码方式，数字和字母用一个字节，汉字用3个字节。

注：在GBK的棋盘上找到的中字后，JVM会自动找到中在UNICODE这个棋盘上对应的数字，并且以UNICODE上的数字保存在内存中。

解释：为什么中字前面有一个?