爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!

无图言虚空

解析器 使用方法 优势 劣势
Python标准库 BeautifulSoup(markup, "html.parser") Python的内置标准库 执行速度适中 文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器 BeautifulSoup(markup, "lxml") 速度快 文档容错能力强 需要安装C语言库
lxml XML 解析器 BeautifulSoup(markup, ["lxml", "xml"]) BeautifulSoup(markup, "xml") 速度快 唯一支持XML的解析器 需要安装C语言库
html5lib BeautifulSoup(markup, "html5lib") 最好的容错性 以浏览器的方式解析文档 生成HTML5格式的文档 速度慢 不依赖外部扩展

同理window的也一样,下载对应的驱动,解压后,将下载的**.exe 放到Python的安装目录,例如 D:\python 。 同时需要将Python的安装目录添加到系统环境变量里。

qq登录页http://i.qq.com,利用webdriver打开qq空间的登录页面

driver = webdriver.Chrome()
driver.get("http://i.qq.com")

这个时候可以看到已经打开了qq说说的页面了, 注意 部分空间打开之后会出现一个提示框,需要先模拟点击事件关闭这个提示框

tm我以前竟然还有个黄钻,好可怕~~,空间头像也是那么的年轻、主流...

至此,爬取qq说说内容,并生成词云图。

源码github地址: github.com/taixiang/sp…

万人交流源码共享群:125240963

猜你喜欢

转载自www.cnblogs.com/sm123456/p/9035867.html