Python3.6爬虫集合 xpath bs4 re 爬51job前程无忧招聘信息 豆瓣音乐等等

总结一下这两天自己写的爬虫,之前一直用框架爬虫,感觉有必要熟练最基础的没有框架爬虫才能让我更好理解框架,代码在链接内,代码中都有详细的注释

1. 发送邮件,这里选择发送网页邮件,其他邮件发送可以看廖雪峰老师的教程

    * 邮件协议为SMTP,端口为25
    * 需要模块 email(构造邮件) smtplib(发送邮件)
    *  代码传送门
    * 无具体注意事项


2. xpath爬取豆瓣音乐
    * 不利用框架,网页解析可以用正则(re),lxml或者bs,正则爬虫确实比较费劲,需要仔细点,其中lxml解析快,语法也简单,因此选用lxml
    * / 从根节点开始扫描
        // 从当前节点开始向后扫描
        /text() 获取该节点的文本内容
        . 选择当前节点
        .. 选取当前节点的父节点
    * 选取豆瓣音乐的前250条(豆瓣图书类似)
    * 安装xpth helper插件可以copy xpth,能检查自己写的对不对
    * 需要模块 lxml 一般都利用其中的etree.HTML
    *  代码传送门
    

3. 爬取猪八戒数据并切防止ip被封,并把数据存入excel中
    * 需要模块bs4 requests lxml xlwt xlrd
    *  IP生成器传送门地址取自国内高匿名代理IP网站
    *  代码传送门

4. 模拟登录知乎
    * 需要模块 Selenium
    * 此次用的火狐浏览器登录,因为火狐驱动和浏览器没有版本限制,需要将driver放在python.ext同级目录下,如若还不行就将火狐添加到Path中   driver驱动传送门
    *  代码传送门
    
5. 分析朋友QQ空间状态
    * 需要用到的模块selenium lxml wordcloud(词云) matplotlib(生成词云图片) jieba分词
    * 需要注意利用webdriver选取ifame,否则出现可能找不到控件问题,具体代码有注释driver.switch_to.frame
    *  需要的ttf字体资源传送门
    *  代码传送门
    * 上述代码是对指定的QQ好友空间内容获取,写入文件,然后才用词云进行分析
    *  词云分析传送门其实用不用结巴分词都可以,词云分析这里就简单的展示了一下,没有对数据进行清洗
6. 爬取指定人微博数据
    * 需要的模块 Selenium lxml
    * 需要模拟登录微博,然后再对指定人的微博页进行爬取数据,不登录微博只能爬取一页数据,貌似现在第一次在浏览器登录微博后会有个手机验证,此时模拟不是第一次在该浏览器登录
    * 爬取完后再通过之前的词云分析代码分析
    *  代码传送门
    
7. 根据输入条件爬取相亲网站上的美女并下载对应美图和记录详细信息
    * 需要用到的模块 Selenium
    * 没有下一页,往下滑能一直加载,需要F12到network中查看,对应有page属性的其实

    * 代码传送门

8. 爬取前程无忧上的招聘信息
    * 三种方式爬取,bs4、xpath、re
    * xpath方式:模拟搜索,用户输入需要找的职位进行爬取,模拟点击下一页代码传送门
    * bs4方式:对网址分析,用户输入职位,按固定页数进行分页爬取代码传送门
    * re方式:正则这块确实有点坑代码传送门

猜你喜欢

转载自blog.csdn.net/tenderness4/article/details/79504086