XMLとは何ですか?

まず、XMLは何ですか?
1、定義:拡張マークアップ言語(拡張マークアップ言語)
2、特定の:XMLは説明文字から半構造化データです。
3、アクション:XMLは、主に、送信データに使用される
第二に、XMLおよびHTMLの差?
1、異なる構文を必要とする:XML構文の要件をより厳しいです。
(1)において、HTML、XML、厳密な区別場合を区別しない
、文脈が明らかにあなたが省略</ Pできるキーの段落またはリストの終わりを示す場合、HTML(2)、時には厳密>または</ LI>タグ。XMLでは、任意のマークを省略してはならない厳格なツリー構造です。
(3)XMLでは、それがエンドAS /文字を使用しなければならない2つの要素が一致しなかったシングルエンドFLAGタグを有します。HREF = 'WWW' /> <A
(4)XML属性値には、引用符で分配されなければなりません。HTMLでは、引用符は、またはしない場合があります。
HTML属性名に(5)プロパティ値をもたらすことはできない、XMLは取る必要があります
(6)は、XML文書パーサー空白部分が自動的に削除されることはありませんが、HTMLはのスペースをフィルタリングすることで
異なるのマーク2
(・ 1)HTML固有タグを使用して、無固有XMLタグ
・(2)HTML予め定義されたタグ、XMLタグは、カスタマイズおよび拡張可能です。
図3に示すように、異なる効果
(1)HTMLは、データを表示するために使用されるように設計されています。
(2)XMLは、送信データに使用されます。

三、XPathの(文法) -キー-別のパスに相当する
1、何のxpath?
XPathのHTMLやXML構文の画面要素に使用されています。
いくつかの名前に2、XMLおよびHTML。
要素
タグは
属性
コンテンツ
3、XPath構文
(1)ノードを選択
-このノードを
.. ---代表親
/ ---選択したルートノードから始まる
// ---どこでもドキュメントから
nodename-- -要素またはラベルを選択
@ ---に対応する選択された属性名の属性名、属性値
のテキストを()----選択コンテンツ
(2)述語:言語は、対象のコンポーネントを定義するために使用されます。
、の位置によって定義することができる
選択された身体// ---- / DIVの数の[番号] [3]
[ラスト()]:最後の本体// / DIV [最後()]を選択し
、[最後の() - 1。 ]:最後から二番目の本体// / DIV [最後()]を選択し
、[位置を()> 1]:// ----選択された位置は、DLよりも大きい1 / DD [位置()> 1]
属性によって定義されるB、
[クラス@ =「属性値が」]:クラス属性は、選択された属性値に等しいです。// divの---- [クラス@ = "コンテナ"]
[(@ hrefの'百度')が含ま]:Baiduの備えhref属性値選択属性名ラベル- // [、(@hrefが含まれています「1203」)]
Cは、サブ定義されているタグの内容
//ブック[価格> 35] - コンテンツの価格タグワードは、ラベルの選択ブックブックタグ35以上です。

四、lxmlのモジュール:解析XMLおよびHTMLモジュールに使用のpython、あなたは、XPath構文を使用することができ、このモジュールで。
サードパーティのモジュール:ピップは、lxmlのインストール

 

 

 

 

XPathのメソッドの戻りがインストールされ、要素のリストであり、オブジェクトがある場合、文字列で満たされたとき、属性と要素を確認し、ラベルを確認してください?

 

おすすめ

転載: www.cnblogs.com/caiweijian/p/12306948.html
おすすめ