Java爬取网页源码时乱码问题 - 代码天地

Java爬取网页源码时乱码问题

编程语言 2018-07-25 16:09:48 阅读次数: 0

先上代码

String strurl="http://search.dangdang.com/?key=%BB%FA%D0%B5%B1%ED&act=input";
        try {
            URL url=new URL(strurl);
            //通过url建立与网页的连接
            URLConnection conn=url.openConnection();
            //通过链接取得网页返回的数据
            InputStream is=conn.getInputStream();
            //一般按行读取网页数据，并进行内容分析
            //因此用BufferedReader和InputStreamReader把字节流转化为字符流的缓冲流
            //进行转换时，需要处理编码格式问题
            BufferedReader br=new BufferedReader(new InputStreamReader(is));

            //按行读取并打印
            String line=null;
            while((line=br.readLine())!=null){
                System.out.println(line);
            }

            br.close();
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }

结果

这里写图片描述

解决方法

在创建BufferedReader对象时，设置InputStreamReader对象的编码格式，如下：

BufferedReader br=new BufferedReader(new InputStreamReader(is,"GB2312"));

这里的编码格式要与爬取网页的charset一致，否则依旧会乱码

<meta http-equiv="Content-Type" content="text/html; charset=GB2312">

猜你喜欢

转载自blog.csdn.net/ccc_12345/article/details/81186674

Java爬取网页源码时乱码问题

爬取网页是发现文本乱码问题

爬取网页中文乱码的问题

爬取网页时出现了中文编码乱码的问题的解决方案

java代码实现网页源码爬取

网页源码爬取

python使用requests和BeautifulSoup爬取网页乱码问题

爬虫爬取数据时各种中文乱码问题

爬取动态网页时遇到的问题

python爬取网页时，编码出错问题

爬取京东乱码问题爬取京东乱码问题

Java爬取源码

Java爬取网页图片

JAVA爬取网页邮箱

Jsoup 非html文档爬取时，中文乱码问题-----一堆杂文

Python使用bs4爬取数据时乱码问题

使用selenium的webdriver动态爬取网页时遇到的问题

Selenium使用PhantomJS来爬取动态网页时遇到的问题

爬虫爬取数据时，网页响应码返回404问题的解决方法

selenium爬取网页的性能问题

python学习笔记之爬取网页乱码

Python爬取网页遇到乱码怎么办？

几种网页爬取的方法与实现(Java)

java网页数据爬取

java爬虫爬取网页信息

Java爬取网页数据

java-实现网页代码的爬取

Java 爬取网页并保存到本地

scrapy爬取小说时换行问题

scrapy 爬取https网页时出现ssl错误

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)