非结构化数据与结构化数据提取---- 案例：使用bs4的爬虫

其他 2018-10-15 14:47:39 阅读次数: 0

案例：使用BeautifuSoup4的爬虫

我们以腾讯社招页面来做演示：http://hr.tencent.com/position.php?&start=10#a

使用BeautifuSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间，以及每个职位详情的点击链接存储出来。

# bs4_tencent.py


from bs4 import BeautifulSoup
import urllib2
import urllib import json # 使用了json格式存储 def tencent(): url = 'http://hr.tencent.com/' request = urllib2.Request(url + 'position.php?&start=10#a') response =urllib2.urlopen(request) resHtml = response.read() output =open('tencent.json','w') html = BeautifulSoup(resHtml,'lxml') # 创建CSS选择器 result = html.select('tr[class="even"]') result2 = html.select('tr[class="odd"]') result += result2 items = [] for site in result: item = {} name = site.select('td a')[0].get_text() detailLink = site.select('td a')[0].attrs['href'] catalog = site.select('td')[1].get_text() recruitNumber = site.select('td')[2].get_text() workLocation = site.select('td')[3].get_text() publishTime = site.select('td')[4].get_text() item['name'] = name item['detailLink'] = url + detailLink item['catalog'] = catalog item['recruitNumber'] = recruitNumber item['publishTime'] = publishTime items.append(item) # 禁用ascii编码，按utf-8编码 line = json.dumps(items,ensure_ascii=False) output.write(line.encode('utf-8')) output.close() if __name__ == "__main__": tencent()

猜你喜欢

转载自www.cnblogs.com/joshuazc/p/9790796.html

非结构化数据与结构化数据提取---- 案例：使用bs4的爬虫

爬虫提取非结构化数据

非结构化数据与结构化数据提取---多线程爬虫案例

非结构化数据与结构化数据提取---- 案例：使用正则表达式的爬虫

黑马python2.7的爬虫2-非结构化数据与结构化数据提取

Python爬虫(七)_非结构化数据与结构化数据

Trafodion 使用BLOB存储非结构化/半结构化数据

【案例】--非结构化数据中台案例

[Python爬虫] 七、结构化数据提取之JSON与JsonPATH

非结构化和结构化数据提取

Python爬虫新手进阶版：怎样读取非结构化、图像、视频、语音数据

python爬虫工程师成长之路六(一) 非结构化数据之XPath

如何使用 SQL Server FILESTREAM 存储非结构化数据？这篇文章告诉你！

VTK笔记-使用vtkUnstructuredGrid类构建非结构化数据

Solr使用DataImportHandler(DIH)工具加载结构化数据

使用struct来结构化关联数据

Python 爬虫 bs4 数据解析基本使用

使用结构化命令

【案例】--(非结构化)文件管理案例

Python爬虫新手进阶版：怎样读取非结构化网页、图像、视频、语音数据

python爬虫工程师成长之路六(二) 非结构化数据之lxml库

Python图表数据可视化Seaborn：4结构化图表可视化

爬虫之用bs4解析数据

非结构化数据与结构化数据提取--- JSON模块与JsonPath

非结构化数据与结构化数据提取----XPath与lxml类库

结构化数据和非结构化数据的提取【Python篇】

Python爬虫数据提取方式——使用bs4提取数据

protobuf结构化数据的序列化在（Unity C#）中的引用与使用

数据的种类(结构化数据、非结构化数据、半结构化数据)

Elasticsearch结构化搜索_在案例中实战使用term filter来搜索数据

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)