簡単にデータ分析09 |数&ウェブスクレーパー親子セレクタをクロールウェブスクレーパー自動制御

これは、単純なデータ解析シリーズである9件の記事。

ウェブスクレーパーの父と息子のセレクタをクロールする自動制御やWebスクレーパーの数:今日はウェブスクレーパーに関するいくつかの小さな特徴を話しています。

最初の100件のデータをつかむためにどのように?

あなたが続く場合は、チュートリアルダウンステップバイステップで、あなたはこの爬虫類は操作になりますでしょう、停止しないでください。データの1000ページがありますが、彼は1000年をつかむだろう、バー10Wがあり、10Wは、バーをつかみます。私たちの需要が非常に小さい場合は、単に行う方法200の前にクロールしたいですか?

あなたがいる場合、手動で閉じウェブクロールデータを、あなたはデータがあります失ったことが、暴力のこの方法は望ましいことではないように、保存されません。我々は現在のWebスクレーパーのクロールを停止するには、2つの方法があります。

ネットオフ1.大法

あなたは、ほとんどのコンピュータネットワークに直接データをつかむ感じるとき壊れています。データをダウンロードしないように、ウェブブラウザは、ウェブスクレーパーは、それが自動的に保存自動停止します、以上のクロールと誤解されます。

切断大法のシンプルかつ、粗、エレガントな、しかし効果的ではないが。欠点は、非常に知的ではない、あなたは手動で、側を凝視するために重要なポイントを持っているということです。

2.データなしナンバーストリップません

たとえば、記事の少数民族人気のある記事の爬虫類は、コンテナはセレクタがありdl.article-card、彼は数内のすべてのページをクロールでしょうdl.article-cardデータのを。

私たちは、セレクタの後に1を追加することができ:nth-of-type(-n+100)、それがある前に、表現クロールデータ100の前に、200を:nth-of-type(-n+200)、1000年だった:nth-of-type(-n+1000)ように、と。

このように、我々は、制御データによってデータをクロールする必要がある数を制御することができます。

抓取链接数据时,页面跳转怎么办?

上文抓取数据时,可能会遇到一些问题,比如说抓取标题时,标题本身就是个超链接,点击圈选内容后打开了新的网页,干扰我们确定圈选的内容,体验不是很好。

其实 Web scraper 提供了对应的解决方案,那就是通过键盘来选择元素,这样就不会触发点击打开新的网页的问题了。具体的操作面板如下所示,就是我们点击 Done Selecting 的那个控制条。

我们把单选按钮选择后,会出现 SPC 三个字符,意思分别如下:

S:Select,按下键盘的 S 键,选择选中的元素

P:Parent,按下键盘的 P 键,选择选中元素的父节点

C:Child,按下键盘的 C 键,选择选中元素的子节点

我们分别演示一下,首先是通过 S 键选择标题节点:

我们对比上个动图,会发现节点选中变红的同时,并没有打开新的网页。

如何抓取选中元素的父节点 or 子节点?

通过 P 键和 C 键选择父节点和子节点:

按压 P 键后,我们可以明显看到我们选择的区域大了一圈,再按 C 键后,选择区域又小了一圈,这个就是父子选择器的功能。

这期介绍了 Web Scraper 的两个使用小技巧,下期我们说说 Web Scraper 如何抓取无限滚动的网页。

推荐阅读:

简易数据分析 08 | Web Scraper 翻页——点击「更多按钮」翻页

おすすめ

転載: www.cnblogs.com/web-scraper/p/web_scraper_jiqiao.html