读取不同编码格式文本文件

文本文件编码问题
在读取不同编码格式的文本文件,可能会出现乱码的情况(特别是文本中有汉字的情况)。
现在准备了两个文本文件:test1.txt(编码格式:“UTF-8”)和test2.txt(编码格式:“ANSI”)
两个文本文件中存储的均为:“hello,中国”
代码如下:

public class ReadFile {
    public static void main(String[] args) throws IOException {
        File f1=new File("e:"+File.separator+"test1.txt");
        File f2=new File("e:"+File.separator+"test2.txt");
        String str1=FileUtils.readFileToString(f1);
        String str2=FileUtils.readFileToString(f2);
        System.out.println(str1);
        System.out.println(str2);
    }
}

输出结果为:
test1文本内容:hello,中国
test2文本内容:hello���й�


可以看到test2文本在对汉字和都好读取时出现了乱码,这是因为在读取是没有说明读取文件的编码格式,代码执行时会以默认的编码格式进行解析,所以出现了乱码(注:这个是我个人的理解,若有错误,欢迎指出)。
代码修改如下:

public class ReadFile {
    public static void main(String[] args) throws IOException {
        File f1=new File("e:"+File.separator+"test1.txt");
        File f2=new File("e:"+File.separator+"test2.txt");
        String str1=FileUtils.readFileToString(f1,"UTF-8");  //注明文本文件编码格式为utf-8
        String str2=FileUtils.readFileToString(f2,"gbk");    //注明文本文件编码格式为gbk
        System.out.println("test1文本内容:"+str1);
        System.out.println("test2文本内容:"+str2);
    }
}

输出结果为:
test1文本内容:hello,中国
test2文本内容:hello,中国


此时读取文本文件内容正确。
有时候我们会遇到编码格式正确的情况下,依然会出现一些乱码,这个时候可能会是文本文件保存的时候默认添加了BOM,建议不要使用Windows自带的文本编译器,而是选择一款其他的文本编译器,避免在编码格式中自动包含BOM

猜你喜欢

转载自blog.51cto.com/13507330/2110713
今日推荐