HTMLParser类的定义及常用方法
类的定义
- HTMLParser主要是用来解析HTML文件(包括HTML中无效的标记)。
- 参数convert_charrefs表示是否将所有的字符引用自动转化为Unicode形式,Python3.5以后默认是True。
- HTMLParser可以接收相应的HTML内容,并进行解析,遇到HTML的标签会自动调用相应的handler(处理方法)来处理,用户需要自己创建相应的子类来继承HTMLParser,并且复写相应的handler方法。
- HTMLParser不会检查开始标签和结束标签是否是一对。
常用方法