用htmlparser提取table信息 - 代码天地

用htmlparser提取table信息

企业开发 2018-05-14 21:30:31 阅读次数: 2

htmlparser1.6
提取tr似乎有些问题，直接用css selector提取的tr冗余，tr里面还有tr。
所以这里多做了些处理。请看代码。

  public static Map<String,String> parseList(String url) {
    Map<String,String> rlt=new LinkedHashMap<String,String>();
    NodeFilter filter=new CssSelectorNodeFilter (".className tr");
    filter = new AndFilter(filter, new NotFilter(new HasChildFilter(new CssSelectorNodeFilter ("tr"))));
    Parser parser;
    try {
      parser = new Parser(url);
      NodeList list = parser.extractAllNodesThatMatch(filter);
      for(int i=0;i<list.size();i++){
        Node tr=list.elementAt(i);
        parser = new Parser(tr.toHtml());
        NodeList tds = parser.extractAllNodesThatMatch(new CssSelectorNodeFilter ("td"));
        String key=tds.elementAt(0).toPlainTextString();
        String value=tds.elementAt(1).toPlainTextString();
        rlt.put(key, value);
      }
    } catch (ParserException e) {
      e.printStackTrace();
    }
    return rlt;
  }

考虑一下

猜你喜欢

转载自bg090721.iteye.com/blog/1525891

用htmlparser提取table信息

HtmlParser提取网页中的纯文本信息

用htmlparser分析并抽取正文

htmlparser使用经验总结，与网页提取

使用HtmlParser提取HTML文本块

htmlparser

用HtmlParser 写个简单的 news爬虫(转)

用HtmlParser 写个简单的 news爬虫

HTMLParser 解析html字符串，提取纯文本

爬虫实战：基于 HtmlParser 实现网页链接的提取

利用htmlparser爬虫获取指定完整的完整区域信息

用htmlparser解析，怎么拿不到子标签的理想对象？

Java:用HtmlParser抓取新浪博客文章内容

Python网络爬虫与信息提取（7）—— 用re库爬取淘宝商品信息

处理5000多个html，并提取当中有用的用户信息

根据ETL报错的信息，用Python从源文件中提取出错误的内容

数学建模_巧用Excel的分列处理文本数据，提取有用信息

【爬虫基础】java用正则表达式处提取网页信息

信息组织与提取

Excel信息提取

提取文件或目录信息

提取Flash芯片信息

python提取GO信息

HTMLParser使用

HTMLParser 笔记

python HTMLparser

【Python入门】32.常用内置模块之 HTMLParser & 抓取网页信息

table表格信息

SQLite查询table信息

mysql 提取 schema,table,column names

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)