冬のビッグデータの研究ノートの10

  彼らは、XPathの多くは、などのノード、などの属性、私はその使用を記述するために話し言葉を使用して導くことができるので、今日はビットXPathを学ぶためにまずシンプル、多くのオンライン導入xpathがありますが、私は、手の込んだことはありません。それはあなたがHTMLに欲しいものを外にHTMLタグを検索することができます。次の例では、テンセントのニュースのホームページ、右検査、登場開発者向けオプションを見て最初は、Ctrl + Fは、検索ボックスのXPathを起動するには

 

 

 

次のようにXPathが使用さ:

 / [ラベル]を  見つけるために、ルートノード(始まり)を表し、この場合には、唯一見つけることができます  / HTML  、他の缶が見つかりません

 

 

 

 

 

 

 // [ラベル]は  最も一般的にラベルに使用されている文書全体から一致している、文書全体から一致するタグを見つけることができるようになります

 

 

 図のように、129のDIV合計に見出すことができます

 [(クラス/ ID /...)= "@ 「]  ラベルの後ろに直接書き込むブラケット、属性に基づいて検索範囲を制限しています

これらは、これらの3つのルールで、あなたは、XPathのほとんどを書くことができ、三つの基本的なルールです。例えば、私は下のリンクを取得したいです:

 

 

 

 // [クラス=「画像@ 」] / @ hrefの 対応するリンクを与えるために、この手段href属性は、クラスの属性から非選択画像のルートノードです。

 

 同じタグの属性に複数のリンクがあるので3がある理由については、当然のことながら、それがあります。

また、彼らは右のxpathに浮かぶ、書き込みしたくない場合は、選択したXPath XPathは得ることができ、コピーを選択し、右クリックし、あなた自身を記述する方がよいので、私は、このXPathは普遍的ではないと思いますが、ラベルをしたいです。

 

 

 

  继续学习scrapy框架,看了几个简单的教程例子后准备动手写一个。我的目标是爬取卫健委的疫情数据。创建项目,设置Setting,爬取源码,然后得到一大堆js……没错,这个网页使用js动态加载的,并非静态网页,而很不巧的是,scrapy没法爬取动态加载网页的网页数据,所以只好找了一个静态网页练习了一下。正在寻找scrapy爬取动态网页的方法。似乎scrapy-splash可以,正在实验中。

おすすめ

転載: www.cnblogs.com/YXSZ/p/12287347.html