写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

---恢复内容开始---

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

百度风云榜一共有50个关键词,我们先任选其中一个打开看看。

从零基础到项目实战视频群:125240963

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

一、实验目的

我们的目的是通过百度风云榜,获取相关关键词的新闻内容。(后面会有一篇文章会讲到用咱们今天获取的数据做文本聚类)

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

运行,结果keyword全部为乱码,没有一点中文的痕迹。

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

这就是我们今天要克服的问题-html编码问题。

遇到这种问题问题,我们可能会先在html标签中查找charset字符集。一般charset值有utf-8、gbk、gb2312、ascii等。

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

再次运行,汉字正常显示。

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

2.2 定位搜索页面新闻链接

上面我们获取到了关键词及其链接,浏览器点击“46年吃3万个汉堡”对应的链接,跳转到 百度搜索页,如下图。

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

我们想获取新闻内容,而要获取新闻内容,我们就要知道新闻对应的链接。首先我们要定位,如下图。这里我们使用另外一种方式定位链接-正则表达式。

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

2.4 编写爬虫主函数

编写爬虫主函数,将数据保存到csv中。

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

运行爬虫,采集了50个关键词共388篇新闻内容。后续我们将对388篇文章内容做聚类分析,采用Kmeans算法试图让机器对388篇文章进行分类标注。而50个关键词则可以作为标签,衡量聚类的效果。

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

觉得这篇文章有帮到你的话,请给个关注哦!

写爬虫时碰到过乱码吗?乱码了怎么办?超长篇教学解决方法给你!

---恢复内容结束---

猜你喜欢

转载自www.cnblogs.com/sm123456/p/9029149.html