1.3 网页数据抓取

1.3 网页数据抓取

李沐

B站:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
课程主页:https://c.d2l.ai/stanford-cs329p/

1. 网页数据抓取

  • 网页数据抓取: 特定网站提取数据;

    • 特点:噪声大、存在垃圾信息、数据规模大

    • 常见应用:价格比较、价格跟踪网站

  • 爬取 和数据抓取 有区别?

    • 爬取:整个网页
    • 数据抓取:数据科学家–>特定网页–>感兴趣数据

2. 抓取工具

存在问题:linux平台下使用curl 工具,但是网站一般会使用各种工具阻止爬取;

解决办法:使用headless的浏览器,没有GUI的浏览器;(同一ip一段时间内大量的访问同一网站,可能会被禁止,可以通过云服务器)

  • 示例代码
from selenium import webdriver
chrome_op

猜你喜欢

转载自blog.csdn.net/ch_ccc/article/details/129876865
1.3