1.3 网页数据抓取
李沐
B站:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
课程主页:https://c.d2l.ai/stanford-cs329p/
1. 网页数据抓取
-
网页数据抓取: 特定网站提取数据;
-
特点:噪声大、存在垃圾信息、数据规模大
-
常见应用:价格比较、价格跟踪网站
-
-
爬取 和数据抓取 有区别?
- 爬取:整个网页
- 数据抓取:数据科学家–>特定网页–>感兴趣数据
2. 抓取工具
存在问题:linux
平台下使用curl
工具,但是网站一般会使用各种工具阻止爬取;
解决办法:使用headless
的浏览器,没有GUI的浏览器;(同一ip
一段时间内大量的访问同一网站,可能会被禁止,可以通过云服务器)
- 示例代码
from selenium import webdriver
chrome_op