Python—解析HTML页面(HTMLParser)

HTMLParser类的定义及常用方法

类的定义

  • HTMLParser主要是用来解析HTML文件(包括HTML中无效的标记)。
  • 参数convert_charrefs表示是否将所有的字符引用自动转化为Unicode形式,Python3.5以后默认是True。
  • HTMLParser可以接收相应的HTML内容,并进行解析,遇到HTML的标签会自动调用相应的handler(处理方法)来处理,用户需要自己创建相应的子类来继承HTMLParser,并且复写相应的handler方法。
  • HTMLParser不会检查开始标签和结束标签是否是一对。

常用方法

实例应用

猜你喜欢

转载自www.cnblogs.com/liuhaidon/p/12060184.html
今日推荐