elk:
Quiero recuperar libros de un sitio web, sino que el sitio web utiliza diferentes html para mostrar la misma cosa. En algunas páginas que tiene una div
seguida de una ul
y luego el li
, como este:
<div class="book-description">
<ul>
<li>info 1</li>
<li>info 2</li>
<li>info 3</li>
</ul>
</div>
Para iterar sobre el li
yo simplemente hacer:doc.select("div.book-description > ul > li")
En otros se pasa directamente de div
que li
, como este:
<div class="book-description">
<li>info 1</li>
<li>info 2</li>
<li>info 3</li>
</div>
La sintaxis anterior no funcionaría con esta página, yo tendría que usar doc.select("div.book-description > li")
¿Existe una sintaxis que puede utilizar para especificar que la ul
pueden faltar?
DHE:
¿Usted ha intentado doc.select("div.book-description li")
?
Si su lista no están listas anidadas, este selector no estaría mal.