Python爬取Drupal论坛帖子列表

通过GooSeeker的api接口实时获得提取规则,对网页进行抓取。本示例主要有如下两个技术要点:

通过GooSeeker API实时获取用于页面提取的xslt

使用GooSeeker提取器gsExtractor从网页上一次提取多个字段内容。

python源代码

抓取结果

运行上节的代码,即可在控制台打印出提取结果,是一个xml文件,如果加上换行缩进,内容如下图:

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/88597625