まずページ構造を見てください。
Web ページの表示テキスト:
Python の xpath で解析した結果:
問題のある xpath の書き込み方法:
xpath = etree.xpath("//*[@id='review-list']//ul//div[4]/text()")
print(xpath)
Webページの構造では、テキストの途中にimgタグ要素が挿入されており、xpathを追加する場合はxpathの後に追加していることがわかります。
/文章()
この問題が発生します。
一時的な回避策:
xpath = etree.xpath("//*[@id='review-list']//ul//div[4]")
print(xpath.text)
取得するテキストの内容を xpath の後に移動するだけですが、まだ問題があり、この方法では最初のテキストのみが一致します。
次のテキストは一致できません。この問題の解決方法は後で説明します。