网络爬虫基础教程 Web scraping using Beautiful soup in Python: An introduction

作者:禅与计算机程序设计艺术

1.简介

1.1什么是web scraping?

Web scraping,即网络爬虫,是一个广义的概念,包括从互联网上抓取信息、数据等过程。Web scraping可以用来获取特定网站的数据、进行数据分析、数据挖掘、监控网站变化,甚至还可以用于反对网络审查。但是,web scraping并不仅仅局限于获取网站上的信息,它也可以用来收集各种文档和数据文件,包括PDF、Word、Excel等格式的文件。

1.2为什么要用web scraping?

除了以上提到的应用场景外,web scraping也有其自身优点:

  1. 数据保障:在今天的互联网时代,很多重要的数据都存储在网站上。利用web scraping,你可以很方便地把这些数据集中到本地,进行数据的分析、数据挖掘、可视化等工作。

  2. 技术进步:Web scraping技术的更新迭代速度非常快,新技术的出现会不断地影响web scraping的功能。

  3. 数据价值:许多网站为了利益,会提供免费的API接口供开发者调用。如果想要获取更加复杂的信息,就需要付费了。但利用web scraping,你就可以不受限制地获取网站上的信息,并且可以把获取到的信息经过处理后用于自己的研究。

  4. 隐私保护:在互联网上分享自己的数据或个人信息是违法行为。利用web scraping,你可以比较容易地发现、清理和删除自己的信息。同时,也可以通过一些手段降低被搜索引擎收录的风险。

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132493521
今日推荐