Pythonクローラーセレクション01エピソード(初対面クローラー)

Pythonクローラーセレクション01エピソード(初対面クローラー)

Python学習ディレクトリポータル

Webクローラーの概要

1.定義

  • Webスパイダー、Webロボット、Webデータを取得するプログラム。

  • 実際、Pythonプログラムを使用して、ブラウザーをクリックしてWebサイトにアクセスする人々を模倣することであり、模倣が現実的であるほど優れています。

次に、データをクロールする目的

  • データ分析のために大量のデータを取得する
  • 会社のプロジェクトのテストデータ、会社のビジネスに必要なデータ

3.企業がデータを取得する方法

  • 会社独自のデータ

  • サードパーティのデータプラットフォーム(貴陽ビッグデータエクスチェンジのデータホール)から購入

  • クローラーのクロールデータ

第四に、クローラーとしてのPythonの利点

1、Python :请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架

2、PHP :对多线程、异步支持不太好

3、JAVA:代码笨重,代码量大

4、C/C++:虽然效率高,但是代码成型慢

5、クローラー分類

1、通用网络爬虫(搜索引擎使用,遵守robots协议)

	robots协议 :网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,

	通用网络爬虫需要遵守robots协议(君子协议)

	https://www.taobao.com/robots.txt

2、聚焦网络爬虫 :自己写的爬虫程序

6つのクローラークロールデータステップ

1、确定需要爬取的URL地址

2、由请求模块向URL地址发出请求,并得到网站的响应

3、从响应内容中提取所需数据

	① 所需数据,保存

	② 页面中有其他需要继续跟进的URL地址,继续第2步去发请求,如此循环

おすすめ

転載: blog.csdn.net/weixin_38640052/article/details/107351809