クローラーの問題レコード (xpath) - テキスト行は xpath によって複数行のテキストに解析されます。

まずページ構造を見てください。

 Web ページの表示テキスト:

 Python の xpath で解析した結果:

 問題のある xpath の書き込み方法:

xpath =  etree.xpath("//*[@id='review-list']//ul//div[4]/text()")
print(xpath)

Webページの構造では、テキストの途中にimgタグ要素が挿入されており、xpathを追加する場合はxpathの後に追加していることがわかります。

/文章()

この問題が発生します。

一時的な回避策:

xpath =  etree.xpath("//*[@id='review-list']//ul//div[4]")
print(xpath.text)

取得するテキストの内容を xpath の後に移動するだけですが、まだ問題があり、この方法では最初のテキストのみが一致します。

次のテキストは一致できません。この問題の解決方法は後で説明します。 

おすすめ

転載: blog.csdn.net/weixin_54243306/article/details/131042807