通过HTMLExtractor向HTML要数据 - 代码天地

通过HTMLExtractor向HTML要数据

其他 2018-09-18 20:41:18 阅读次数: 0

原文发布时间：2017-05-08 09:29:07

西安市国土资源信息中心李博

如何不断扩充数据中心的数据规模，提升数据挖掘的价值，这是我们思考的问题，数据一方面来自于内部生产，一部分数据可以来自于互联网，互联网上的数据体量庞大，形态多样，之前blog里很多FMEer已经提出了方案，比如json,xml,正则表达式等等，但对于比较松散的HTML如何进行数据解析提取呢？我问了一下度娘，貌似没有FME下的文章，恰逢今天有时间，就写一点关于HTML提取的东东，算是自己做的笔记吧！

这次我要提取的范例数据来自国土资源局土地招拍挂系统，我要提取上面的交易结果以及地块信息，样式如下图：

通过HTMLExtractor向HTML要数据 - FME - FME—专业化的空间数据服务实践者

图1：交易结果列表

通过HTMLExtractor向HTML要数据 - FME - FME—专业化的空间数据服务实践者

图2：地块信息

通过HTMLExtractor向HTML要数据 - FME - FME—专业化的空间数据服务实践者

图3:转换工程

通过HTMLExtractor向HTML要数据 - FME - FME—专业化的空间数据服务实践者

图4：提取后的数据

在这个转换工程里，用到了几个转换器，它们是：pythonCreator，HTTPCaller，HTMLExtractor、PythonCaller、StringSearcher、StringReplacer、AttributeExposer、AttributeRenamer、AttributeRemover

本文重点介绍一下HTMLExtractor,转换器的参数如下图：

通过HTMLExtractor向HTML要数据 - FME - FME—专业化的空间数据服务实践者

图5：HTMLExtractor参数

图上标注的参数依次是：

1、 HTML Input：HTML的内容来源，可以是content，表示来源于传入的属性、参数等，也可以是File，表示来源于一个已存在的HTML文件。

2、 HTML Content：本案例用的是content作为源，与HttpCaller连用，HTML存放于_response_body属性中。如果是File作为源，则需要设置HTML File为文件路径。

3、 Target Attribute：设置一个属性（列表）名称，这个属性名称将包含HTML解析的结果。

4、 CSS Selector：设置CSS选择器，类似正则表达式，但用起来更简单，特别适合解析HTML。

5、 Tag Part/HTML Attribute：可以设置为Value（匹配标签里的值）、Whole（匹配的标签和值）、或者输入匹配标签拥有的一个属性名称，比如<a>标记的href属性。

6、 Return Format：可以设置为List Attribute，则将所有匹配的内容作为一个list返回，如果为First Match，则仅返回第一个匹配的内容。

举个栗子，下面是我要匹配的交易结果HTML源文件：

<tr class="TR2" onMouseOver="this.className='TR3';" onMouseOut="this.className='TR2';">

<td height="31" align="left" class="TD1"><img src="images/arrow_yellow.gif">2</td>

<td class="TD1" align="left">BQ2-19-87</td>

<td class="TD1" align="left">国有建设用地使用权</td>

<td class="TD1" align="left">15851.0万元</td>

<td class="TD1" align="left">15851.0万元</td>

<td class="TD1" align="left">西安奥达房地产开发有限责任公司</td>

<td class="TD1" align="left">2017-04-27 16:00</td>

<td class="TD1" align="center" style="color:#FF0000;cursor:pointer;" onClick="window.open('publics/ResourceFrame.jsp?id=933&lx=L','','left=10,top=10,width=890,height=650,scrollbars=yes,resizable=yes,status=yes')">已成交</td>

</tr>

我要把红色的内容提取出来，我只需要简单的写一句CSS选择器进行匹配即可，但在写之前一般是要先整理分析一下HTML源文件，找出可以用于匹配的特征，提高匹配的准确度，减少其他杂志数据被提取出来。

因为HTML源文件中有大量的<td>，所以直接匹配td是不行的，经过分析我找到了特征，CSS选择器为：tr[onMouseOver] td。意思是拥有onMouseOver属性的tr标记下的td标记。

就这么简单，获取的数据还有少量杂质，再用其他的转换器清洗一下即可。

可能会有人问了，你自己抓自己单位的数据好无聊，哈哈，我只是测试一下，如果是你抓我们单位的数据，就不无聊了，我去抓你们单位的数据或互联网上其他有用的页面，是不是顿时就打开了脑洞？

另外，最近正则表达式呼声很高，必须承认，正则表达式非常强大，但有些工作还是有更简单的办法，杀鸡焉用牛刀，对于HTML，通过编写CSS选择器应用HTMLExtractor转换器来解析数据，更加敏捷高效！

工作之余一点心得，不成体系，不周之处，欢迎各位批评斧正！

猜你喜欢

转载自blog.csdn.net/fmechina/article/details/81456498

通过HTMLExtractor向HTML要数据

python + Apache: CGI通过HTML表单使用GET方法向服务器发送数据

通过DMA向串口发送数据

通过 Prop 向子组件传递数据

通过form向server端发送数据

Python通过websocket向InfluxDB存储数据

Android 通过 localstorage 向 HTML5 传参

js动态向html添加数据。

使用flask+SQL语句实现通过前台收到的信息向数据库中插入事件+初级CSS+HTML拯救一下我的主页·····

MYSQL通过循环向数据库中插入数据

hadoop入门--通过Apache Flume向HDFS存储数据

通过网页向DB内添加数据

通过ajax方法向django后台提交表单数据

通过sql 向数据库插入多行语句

子组件通过$emit()向父组件传递数据

jQuery通过Ajax向服务器获取数据

Structured Streaming通过foreach方法向mysql插入数据

通过Logstash由SQLServer向Elasticsearch同步数据

vue 通过Prop向子组件传递数据

通过java向mysql数据库中存取图片

为什么要通过API接口来获取数据

要通过什么渠道获取商品销量详情数据

通过html调起app,并传递数据

通过html解析网页数据

向本地导入数据或者向hdfs导入数据，要先把原来的数据删除，或者把原来数据的文件夹内容全部删除

1003 我要通过

***1003 我要通过！

1003 我要通过！

我要通过！

1003 我要通过！*

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)