ML03 网页数据抓取（note）

企业开发 2023-06-05 04:16:36 阅读次数: 0

很多机器学习数据集是从网页上抓取过来的。
网页数据抓取与网页爬虫的区别：数据抓取：特定的数据，网页爬虫：将整个网页获取
数据科学家主要进行网页数据抓取，对网页上的特定数据感兴趣。

网页数据获取工具

curl 通常不起作用
通常使用headless 浏览器，没有头，没有界面的浏览器。

如果要大量爬取，需要使用IP代理池。

案例-房价预测

在这里插入图片描述
换成不同的page, 或者不同的城市，将这些要获取的对象放入代码中。

原始网页

在这里插入图片描述
BeautifulSoup: 主要用于解析HTML

在这里插入图片描述

在这里插入图片描述
将需要的信息抽取返回保存

在这里插入图片描述
爬虫关键是内存，可能会同时爬多个网页，内存消耗大。
如果ip被禁，重启会重新分配ip

爬取图片

在这里插入图片描述
图片抓取后，将图片存在云端比较耗钱。

法律性

在这里插入图片描述
爬虫本身是不违法的，最好不要去爬一些需要登陆login 的信息，这些一般是隐私数据。
不要去爬一些有版权的信息，比如有版权的视频、文档等。爬本身没有问题，但是保存下来有问题。
爬虫结果不要用于盈利。

总结

来源

https://www.bilibili.com/video/BV1JM4y137kK/?spm_id_from=333.999.0.0&vd_source=3fd64243313f29b58861eb492f248b34添加链接描述

猜你喜欢

转载自blog.csdn.net/weixin_39107270/article/details/130699368

ML03 网页数据抓取（note）

网页数据抓取

抓取网页数据

ML_note_1

ML_note_9

ML_note_11

ML_note_10

ML Note : Octave

Fast AI ML Note

网页数据抓取思路

1.3 网页数据抓取

NoSQL note.03

java简单的抓取网页数据

selenium驱动Chrome抓取网页数据

菜鸟入门之网页数据抓取

使用HtmlAgilityPack抓取网页数据

动态网页数据抓取（一）

java网页数据抓取实例

QueryList异步抓取网页数据

httpClient及jsoup抓取解析网页数据

Python抓取网页数据的终极办法

selenium抓取动态网页数据

jsoup技术抓取网页数据大全

关于python抓取网页数据

抓取网页数据的几种方法

Automotive Control Systems -- Note 03

note

Note It

[Fastai] ML lecture1 note

ML in Action Note - Day 3 - Naive Bayes

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)