爬虫之网页乱码解决方法(gb2312 -> utf-8)

前言

  今天在测试爬虫项目时,发现了一个很严肃的问题,当爬取的网页编码格式为gb2312时,按照一般的办法转化为utf-8编码时总是乱码,PS:爬取的所有网页无论何种编码格式,都转化为utf-8格式进行存储。

一、问题出现

  使用这篇文章里面的方法可以直接爬取页面信息并保存至本地使用Httpclient实现网页的爬取并保存至本地当爬取这个网页时http://stock.10jqka.com.cn/zhuanti/hlw_list/,http://www.xianbd.com/发现使用之前(未知编码 -> utf-8编码)的转化方式总是乱码。于是乎查阅了不少资料,发现都不是太适用。最后自己摸索出了一个解决办法,也特此记录。

二、解决方案

  1. 将gb2312格式转化为gbk格式

  2. 将gbk格式转化为utf-8格式

  这里的转化需要使用gbk作为一个中间格式,作为转化桥梁。

三、具体思路

  1. 当打开http://stock.10jqka.com.cn/zhuanti/hlw_list/这个链接,http://www.xianbd.com/,我们查看源码会发现编码格式为gb2312,如下图所示

  

  2. 由于本项目之前就已经使用了转化方案,www.xianbd.com但是此转化方案对网页为gb2312格式无效,本项目之前的转化方案的核心源代码为: 

View Code

  这种方案对gb2312转化后还是乱码,之后的解决方案核心源代码为: http://www.xianbd.com/ 

View Code

  通过这种方式我们就可以解决gb2312编码转化为utf-8编码时出现的乱码问题。

四、总结

  多思考,多动脑,这里只是给出了一个工程解决方案,并没有深入到其中的原理,由此问题可以引申出很多有意思的问题,如,utf-8、gbk、gb2312的编码方式怎样的?为什么这样转化就可以解决问题?这些问题值得我们去深入研究。www.xianbd.com

猜你喜欢

转载自blog.csdn.net/zhuqihe02/article/details/50790412