nutch 配置文件


NutchConfiguration 类中的初始化
  public static Configuration createCrawlConfiguration() {
    Configuration conf = new Configuration();
    addNutchResources(conf, true);
    return conf;
  }
调用
NutchConfiguration 中的
private static Configuration addNutchResources(Configuration conf,
                                                 boolean crawlConfiguration) {
    conf.addResource("nutch-default.xml");
    if (crawlConfiguration) {
      conf.addResource("crawl-tool.xml");
    }
    conf.addResource("nutch-site.xml");
    return conf;
  }
nutch 的配置文件加载顺序如果后面的会覆盖前面的相同的配置

比如在RegexURLFilter 中
// Inherited Javadoc
  protected String getRulesFile(Configuration conf) {
    return conf.get("urlfilter.regex.file");
  }
crawl-tool.xml 中的会覆盖nutch-default.xml 的urlfilter.regex.file 中的文件
crawl-urlfilter.txt

猜你喜欢

转载自chengqianl.iteye.com/blog/1569199