文件编码，解决乱码 - 代码天地

文件编码，解决乱码

其他 2018-10-31 10:11:39 阅读次数: 0

最近java读取文件的时候，经常碰到中文乱码，特研究了一下java 的编码格式，在java 中

java编码与txt编码对应
java	txt
unicode	unicode big endian
utf-8	utf-8
utf-16	unicode
gb2312	ANSI

java 读取txt如果编码格式不对就会出现乱码格式，通过下边方法获取文本文件编码格式，然后以指定的编码读取文件，就不会出现乱码(简单测试了一下，但是也不保证100%)

private static  String getFilecharset(File sourceFile) {
  String charset = "GBK";
  byte[] first3Bytes = new byte[3];
  try {
   boolean checked = false;
   BufferedInputStream bis = new BufferedInputStream(new FileInputStream(sourceFile));
   bis.mark(0);
   int read = bis.read(first3Bytes, 0, 3);
   if (read == -1) {
    return charset; //文件编码为 ANSI
   } else if (first3Bytes[0] == (byte) 0xFF
     && first3Bytes[1] == (byte) 0xFE) {
    charset = "UTF-16LE"; //文件编码为 Unicode
    checked = true;
   } else if (first3Bytes[0] == (byte) 0xFE
     && first3Bytes[1] == (byte) 0xFF) {
    charset = "UTF-16BE"; //文件编码为 Unicode big endian
    checked = true;
   } else if (first3Bytes[0] == (byte) 0xEF
     && first3Bytes[1] == (byte) 0xBB
     && first3Bytes[2] == (byte) 0xBF) {
    charset = "UTF-8"; //文件编码为 UTF-8
    checked = true;
   }
   bis.reset();
   if (!checked) {
    int loc = 0;
    while ((read = bis.read()) != -1) {
     loc++;
     if (read >= 0xF0)
      break;
     if (0x80 <= read && read <= 0xBF) // 单独出现BF以下的，也算是GBK
      break;
     if (0xC0 <= read && read <= 0xDF) {
      read = bis.read();
      if (0x80 <= read && read <= 0xBF) // 双字节 (0xC0 - 0xDF)
       // (0x80
       // - 0xBF),也可能在GB编码内
       continue;
      else
       break;
     } else if (0xE0 <= read && read <= 0xEF) {// 也有可能出错，但是几率较小
      read = bis.read();
      if (0x80 <= read && read <= 0xBF) {
       read = bis.read();
       if (0x80 <= read && read <= 0xBF) {
        charset = "UTF-8";
        break;
       } else
        break;
      } else
       break;
     }
    }
   }
   bis.close();
  } catch (Exception e) {
   e.printStackTrace();
  }
  return charset;
 }

猜你喜欢

转载自blog.csdn.net/y694721975/article/details/61417537

文件编码，解决乱码

解决sublime 乱码显示GBK编码文件

VScode解决文件乱码问题，调整文件编码

编码--（解决乱码问题）

Mac中解决windows中GBK编码的文件乱码现象

JAVA中GBK编码的文件输入乱码解决

解决乱码:自定义io流读写编码,读写不同编码的文件

URL编码解决中文乱码

SecureCRT中文编码乱码解决

java 编码解决中文乱码

properties文件编码乱码问题

linux乱码，文件名乱码、文件内容乱码，JDK编码。 CKFinder文件名称乱码（使用UTF-8解决）

问题解决：Sublime 乱码显示GBK编码文件解决

解决python with 在写入文件是因编码格式不同而造成乱码问题

CentOS 7.4 Linux 下文件名乱码（无效的编码）的快速解决办法

java读取默认编码是ansi的文本文件时，解决中文乱码问题

解决 Excel 打开 UTF-8 编码 CSV 文件乱码的 BUG

【Python 技巧】利用 utf-8-sig 编码格式解决写入 csv 文件乱码问题

RStudio中，出现中文乱码问题的解决方案（修改文件编码）

【解决 Excel 打开 UTF-8 编码 CSV 文件乱码的 BUG 】

chrome 设置编码以解决JS文件中文乱码问题 - 自动检测编码有时不好使

解决文件乱码问题

IDEA 乱码文件解决

解决DOS中的乱码以及编码

mysql 编码解决mysql乱码问题

解决 Jsp_Servlet 编码乱码问题

Robot Framework编码详解-解决乱码问题

java网络传输字符编码乱码解决

解决Chrome网页编码显示乱码的问题

Python乱码解决以及sys编码格式

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)