Java字符串乱码转byte[]数组判断编码类型的方法 - 代码天地

Java字符串乱码转byte[]数组判断编码类型的方法

其他 2018-09-02 07:50:13 阅读次数: 0

版权声明：本文为博主原创文章，转载请注明出处！有时候也不是原创，手快就选了（我的文章随意转载复制，不在乎的哈！） https://blog.csdn.net/qq_31384551/article/details/81627840

是这样的，在使用jsoup做爬虫的时候，抓取到的网页二进制编码不确定，有的是utf-8有的是GBK，所以就需要进行编码判断

使用工具：juniversalchardet

maven包：

<!-- https://mvnrepository.com/artifact/com.googlecode.juniversalchardet/juniversalchardet -->
        <dependency>
            <groupId>com.googlecode.juniversalchardet</groupId>
            <artifactId>juniversalchardet</artifactId>
            <version>1.0.3</version>
        </dependency>

判断编码格式代码（来自CSDN，这段代码是我复制的，原文地址：https://blog.csdn.net/ajaxhu/article/details/12446917）

package com.spider.common.tools;

import org.mozilla.universalchardet.UniversalDetector;
/**
 * 作用：
 * 作者：Tiddler
 * 时间：2018-08-2018/8/13 12：00
 * 类名：GetByteEncode
 **/
public class GetByteEncode {
    public static String getEncoding(byte[] bytes) {
        String DEFAULT_ENCODING = "UTF-8";
        UniversalDetector detector =new UniversalDetector(null);
        detector.handleData(bytes, 0, bytes.length);
        detector.dataEnd();
        String encoding = detector.getDetectedCharset();
        detector.reset();
        if (encoding == null) {
            encoding = DEFAULT_ENCODING;
        }
        return encoding;
    }
}

使用：

String responseContext = null;
byte[] bytes = response.body().bytes();
String encoding = GetByteEncode.getEncoding(bytes);//编码判断
System.out.println("字符编码是："+encoding);
if(encoding.indexOf("GB")>=0){//由于GBK编码有多种，此处这样判断即可
    responseContext = new String(bytes,"gbk");
}
if("UTF-8".equals(encoding)){
    responseContext = new String(bytes,"utf-8");
}

如果获得了一段乱码字符串判断编码解决思路：

先把乱码字符串转byte数组，然后按照上面的方法进行判断即可

猜你喜欢

转载自blog.csdn.net/qq_31384551/article/details/81627840

Java字符串乱码转byte[]数组判断编码类型的方法

Byte数组转字符串的问题

java接收到的byte数组转成16进制字符串和16进制字符串转byte数组

java字符串转byte

Java中字符串数组转 long[]基本类型数组的方法

java android byte[]转16进制字符串,byte[]转10进制字符串

Java String类型字符串转字符数组，字符串根据索引获得字符

字符串转byte

java判断字符串编码

c语言hex字符串转byte数组

Android 字符串转base64 byte数组

java随机十六进制字符串转byte数组

Java实现数组转字符串及字符串转数组的方法

【Android NDK 开发】JNI 方法解析 ( 字符串数组参数传递 | 字符串遍历 | 类型强转 | Java 字符串与 C 字符串转换 | 字符串释放 )

byte[] 数组和字符串的转换，与byte[] 数组和int类型的之间的转化

Java关于String常用方法（字符串转字符数组，字符数组转字符串）

Java字符数组转字符串

java 16进制字符串转 byte[] 转文件文件转byte[] 转16进制字符串

JAVA压缩和解压字符串，BYTE数组，STRING

java字符串与byte数组相互转换

java 中文字符串，utf-8编码为byte数组的计算过程

js数组转字符串方法

java的byte[]数组转成字符串并且再转回byte[]数组

图片转byte,String字符串转byte

java 把字符串数组转List

JAVA数组转字符串

Java-数组转字符串

java 常用的字符串的判断方法

如何让byte数组转换为String字符串时候去除乱码的问号

python 判断字符串中字符类型的常用方法

今日推荐

与 Apollo 共创生态：观看7周年大会的心路历程

与 Apollo 共创生态：Apollo7周年大会的心得体会，干货满满

国内各种免费AI聊天机器人(ChatGPT)推荐(上)

智能时代 | 合合信息Embedding模型荣获C-MTEB榜单第一

Ubuntu 24.04 LTS 正式“开放升级”

【送书福利-第四十四期】《深入Rust标准库》

开源日报 | Altman七宗罪；微软必应全球宕机；美国限制AI出口；淘汰VBScript；PostgreSQL 17

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

周排行

通知、自定义控件颜色

山东财经大学新生赛暨天梯赛选拔赛 C Retina

C#中String类的几个方法(IndexOf、LastIndexOf、Substring)

怎么把WPS文字自动替换直引号为弯引号？

《Spring实战》-第六章:渲染视图（表达式，标签库，模板）

ubuntu11.04安装apache,php,mysql

梦里Babel知多少（一）

python 中whl文件安装

UI设计师月薪大概是多少一般能工作到多少岁

Thinkpad Fn键与Ctrl键互换【不通过BIOS】

每日归档

更多

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)