JAVA crawler 2018-07-04

crawler:

通过htmlutil爬虫框架能直接请求到相应标签里面的值, 下面这个可以通过获取到一整个标签 来获取标签里面指定属性的值


/**
 * 获取指定HTML标签的指定属性的值
 * @param source 要匹配的源文本
 * @param element 标签名称
 * @param attr 标签的属性名称
 * @return 属性值列表
 */
public static List<String> match(String source, String element, String attr) {
    List<String> result = new ArrayList<>();
    String reg = "<" + element + "[^<>]*?\\s" + attr + "=['\"]?(.*?)['\"]?(\\s.*?)?>";
    Matcher m = Pattern.compile(reg).matcher(source);
    while (m.find()) {
        String r = m.group(1);
        result.add(r);
    }
    return result;
}

猜你喜欢

转载自blog.csdn.net/qq_34319145/article/details/80913842
今日推荐