ニーズを学習Scrapyの爬虫類は、XPathの知識研修を設計する必要があります。
運動のXPathを使用。参考:https://cuiqingcai.com/2621.html
1、準備資源
[ルート@マスターのXPath]#猫のhello.html
<HTML> <BODY>
<div>
<UL>
<LIクラス= "項目-0"> <a href="link1.html">最初の項目する</a> </ LI>
<LIクラス= "項目1"> <a href="link2.html">第項目する</a> </ LI>
<LIクラス= "項目不活性"> <a href="link3.html"> 3番目の項目する</a> </ LI>
<LIクラス= "項目1"> <a href="link4.html">第項目する</a> </ LI>
<LIクラス= "項目-0"> <a第href="link5.html">項目する</a> </ LI>
</ UL>
</ div>
</ body> </ html>この
住所やファイルアクセス
2、基本的な環境を実証
3、//パスの使用。
ページのXPathは、絶対パスを取得します。
結果:/ HTML /ボディ/ DIV / UL /李[1] / A
以下、//通常の使用、現在のノードのノードから文書を選択に関係なく、それらの位置の、選択されたと一致します。
4、@ [プロパティ]を選択します
label属性を得る方法。
上記、hrefのリンクアドレスは情報を取得します。
中間位置での加工特性。
コンプリート。