python爬虫学习之百度贴吧抓取

爬虫学习的一点心得

任务:抓取百度贴吧主题、作者、创建时间

抓取:requests

解析:xpath,正则表达式

遇到的问题点:

1.headers请求头要加全,以免被反爬(抓取不到任何信息或者抓取信息不全)

2.用xpath解析的时候,我们需要获取到的内容信息在网页源代码中是被注释掉了,通过js在加载页面的时候显示内容,需要先将注释符号利用正则替换掉

3.保存到CSV中,CSV主要是存取元素为字典的列表;默认newline=‘\n',中间如果不需要空格,则改成newline='';encoding='utf-8',仍然保存的文字为乱码,改成

encoding='utf-8-sig'可解决此问题。

猜你喜欢

转载自www.cnblogs.com/tian2B/p/10878123.html