1.lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML ,支持 XPath (XML Path Language),使用 lxml 的 etree 库来进行爬取网站信息
2.Beautiful Soup支持从HTML或XML文件中提取数据的Python库;支持Python标准库中的HTML解析器;还支持一些第三方的解析器lxml, 使用的是 Xpath 语法
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。
我们爬取腾讯招聘网站的链接为https://hr.tencent.com/position.php?&start=10#a
需要获取职位名称、职位类别、招聘人数、工作地点、发布时间等信息
一、使用etree爬取信息
1.导入库
在python.3中使用urllib库中的request模块,保存输出为json文件
2.获取网站并写到json文件中
如果只使用w来写入文件会报错:write() argument must be str, not bytes,我们需要用二进制来打开改为wb+
3.获取我们需要得到的标签
必须是字典形式,先定义一个空字典
找到我们需要的字段
4.规范输出形式
运行后结果如下:
导出的json文件如下:
二、使用Beautiful Soup爬取信息
1.导入库
2.获取网站并写到json文件中
3.获取我们需要得到的标签
4.规范输出形式
运行结果如下:
以上为两种方法爬取网站信息,个人觉得用Beautiful Soup爬取比较方便