Python爬虫入门之豆瓣短评爬取

采用工具pyCharm,python3,工具的安装在这就不多说了,之所以采用python3是因为python2只更新维护到2020年。

  1. 新建python项目
    在这里插入图片描述

  2. File-Settings-project interpreter,点右上角+号,安装requests,lxml,openpyxl,pandas四个包。
    requests爬取豆瓣短评
    lxml解析定位豆瓣短评
    panda转换并保存豆瓣短评数据
    openpyxl是读写excel文件所用到的包
    在这里插入图片描述
    在这里插入图片描述

  3. 在项目下新建一个python file,实例代码如下:
    在这里插入图片描述

  4. 这里着重说一下,xpath路径如何获取,在网页中选中评论内容,右击-检查,自动跳到对应代码行,再在该代码行上右击-Copy-Copy XPath;粘贴出来你的代码好比如是://[@id=“comments”]/ul[1]/li[1]/div[2]/p/span,这时你要结合你的前端基础知识和页面世界节点去分析,最后把xpath改成//[@class=“comment”]/p/span/text()id="comments"是唯一y一个

  5. 运行代码,在项目目录下生成comments.xlsx文件。大功告成!
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_33496991/article/details/84647242