分布式爬虫(2)

一、网站结构分析以及案例:马蜂窝

  1.网站对爬虫的限制

  2.利用sitemap来分析网站结构和估算

     1)有效抓取特定内容

      (1)利用sitemap里的信息进行抓取

      (2)对网站目录结构进行分析

        大多数网站都会存在明确的top-down的分类的目录结构,我们可以进行特定目录的抓取。对于www.mafengwo.cn这个网站,所有的旅游的游记都会存在于www.mafengwo.cn/mdd下面,按照城市进行了分类,每个城市的游记都位于城市的首页

        城市分页格式:/yj/10774/1-0-01.html

        游记的页面:/i/3523364.html

  3.目标网页的规模    

二、XPath

  1.基本语法:

    (1)namenode       选取此节点的所有子节点,tag或者*选择任意额tag

    (2)/        从根节点选取,选择直接子节点,不包含更小的后代(例如孙,从孙)

    (3)//从匹配选择的当前节点选择文档中的节点,而不考虑他们的位置,包含所有后代

    (4).选取当前节点

    (5)选取当前节点的父节点

    (6)@选择属性

猜你喜欢

转载自www.cnblogs.com/bigdata-stone/p/9852480.html
今日推荐