详解如何批量采集58同城二手房数据及中介联系方式

2008年9月4日,英国《自然》杂志刊登了一个名为“Big Data”的专辑,首次提出大数据概念,该专辑对如何研究PB级容量的大数据流,以及目前正在制订的、用以最为充分地利用海量数据的最新策略进行了探讨。2011、2012年达沃斯世界经济论坛将大数据作为专题讨论的主题之一,发布了《大数据、大影响:国际发展新的可能性》等系列报告。

2011年以来,中国成立了大数据委员会,研究大数据中的科学与工程问题,科技部《中国云科技发展“十二五”专项规划》和工信部《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。业界普遍认为,2013年是中国“大数据元年”。

 

根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律),并且大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到2020年,全球将总共拥有35亿GB的数据量,相较于2010年,数据量将增长近30倍。这不是简单的数据增多的问题,而是全新的问题。 

 

大数据时代的到来,使我们要处理的数据量实在是太大、增长太快了,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。

 

大数据的特征具有数据量大、类型繁多、价值密度低及速度快时效高等特点,面对大数据的全新特征,既有的技术架构和路线,已经无法高效地处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。

 

而大数据蕴含着极大的价值,对我们的工作和生活具有重大的影响,如何快速有效的获取到这些数据为我们服务,是一个大难题。出现了问题,自然就有解决问题的人,为了解决这一问题,后羿工程师团队经过不断的探索和研发,终于开发出一款基于人工智能技术的网络爬虫软件,只需要输入网址就能够自动识别网页数据,无需配置即可完成数据采集,是业内首家支持三种操作系统(包括Windows、Mac和Linux)的采集软件。同时这是一款真正免费的数据采集软件,对采集结果导出没有任何限制,没有编程基础的小白用户也可轻松实现数据采集要求。

 

我们以58同城杭州地区二手房源为例,为大家介绍如何运用软件采集二手房房源信息及中介联系电话。

 

首先复制需要采集的网址,注意需要复制的是结果页的网址,而不是搜索页的网址,然后在软件中输入网址新建智能采集任务。

 

接着我们对智能识别出的字段进行处理,可以修改字段名称,增加或者删除字段等。

 

 

由于在在列表页上只展示出了部分信息,如果需要房源的具体描述的话,我们需要右击房源链接使用“深入采集”功能,跳转到详情页进行采集。

 

深入采集字段设置完毕后,我们点击“保存并启动”按钮,运行爬虫工具。

 

 

数据抽取完毕后,我们可以导出数据,软件提供多种的导出方式,我们可以自由选择。

 

 

我们导出一个excel2007的表格,可以看到数据还是非常完整的,我们可以直接使用这个数据,也可以在这个基础上对数据进行加工处理。


猜你喜欢

转载自www.cnblogs.com/houyicaiji/p/10063762.html