Python爬虫5:Lxml库、Xpath语法与爬虫

Lxml库、Xpath语法与爬虫

1.认识HTML结构
2.XPath
3.实例:爬取起点中文网的全部作品信息

1.认识HTML结构
html标签组成是html文档的最基本元素,一般是成对出现,由开始标签和与其对应的结束标签构成. 如,

,,, 等,不加斜杠表示标签开始,加斜杠表明结束。它们中间的部分就是标签里的元素。标签可以是并列、嵌套关系。
由于html语言是一门弱类型语言,对格式的要求不是非常严格,因此所有标签是不区分大小写的,但是,一般在实际开发中,大家都统一使用小写。
<html > 
<head>
       <meta charset="utf-8" > <!--网页编码声明-->
       <title

猜你喜欢

转载自blog.csdn.net/wjyxld/article/details/105364331