これは、単純なデータ解析シリーズである9件の記事。
ウェブスクレーパーの父と息子のセレクタをクロールする自動制御やWebスクレーパーの数:今日はウェブスクレーパーに関するいくつかの小さな特徴を話しています。
最初の100件のデータをつかむためにどのように?
あなたが続く場合は、チュートリアルダウンステップバイステップで、あなたはこの爬虫類は操作になりますでしょう、停止しないでください。データの1000ページがありますが、彼は1000年をつかむだろう、バー10Wがあり、10Wは、バーをつかみます。私たちの需要が非常に小さい場合は、単に行う方法200の前にクロールしたいですか?
あなたがいる場合、手動で閉じウェブクロールデータを、あなたはデータがあります失ったことが、暴力のこの方法は望ましいことではないように、保存されません。我々は現在のWebスクレーパーのクロールを停止するには、2つの方法があります。
ネットオフ1.大法
あなたは、ほとんどのコンピュータネットワークに直接データをつかむ感じるとき壊れています。データをダウンロードしないように、ウェブブラウザは、ウェブスクレーパーは、それが自動的に保存自動停止します、以上のクロールと誤解されます。
切断大法のシンプルかつ、粗、エレガントな、しかし効果的ではないが。欠点は、非常に知的ではない、あなたは手動で、側を凝視するために重要なポイントを持っているということです。
2.データなしナンバーストリップません
たとえば、記事の少数民族人気のある記事の爬虫類は、コンテナはセレクタがありdl.article-card
、彼は数内のすべてのページをクロールでしょうdl.article-card
データのを。
私たちは、セレクタの後に1を追加することができ:nth-of-type(-n+100)
、それがある前に、表現クロールデータ100の前に、200を:nth-of-type(-n+200)
、1000年だった:nth-of-type(-n+1000)
ように、と。
このように、我々は、制御データによってデータをクロールする必要がある数を制御することができます。
抓取链接数据时,页面跳转怎么办?
在上文抓取数据时,可能会遇到一些问题,比如说抓取标题时,标题本身就是个超链接,点击圈选内容后打开了新的网页,干扰我们确定圈选的内容,体验不是很好。
其实 Web scraper 提供了对应的解决方案,那就是通过键盘来选择元素,这样就不会触发点击打开新的网页的问题了。具体的操作面板如下所示,就是我们点击 Done Selecting
的那个控制条。
我们把单选按钮选择后,会出现 S ,P, C 三个字符,意思分别如下:
S:Select,按下键盘的 S 键,选择选中的元素
P:Parent,按下键盘的 P 键,选择选中元素的父节点
C:Child,按下键盘的 C 键,选择选中元素的子节点
我们分别演示一下,首先是通过 S 键选择标题节点:
我们对比上个动图,会发现节点选中变红的同时,并没有打开新的网页。
如何抓取选中元素的父节点 or 子节点?
通过 P 键和 C 键选择父节点和子节点:
按压 P 键后,我们可以明显看到我们选择的区域大了一圈,再按 C 键后,选择区域又小了一圈,这个就是父子选择器的功能。
这期介绍了 Web Scraper 的两个使用小技巧,下期我们说说 Web Scraper 如何抓取无限滚动的网页。