技术漫谈第1期 | 大数据是什么?蕴含宝藏or沉重负担?

恒驰信息【HCIE技术专家委员会】特别栏目第1期,聚焦技术干货分享和行业热门话题,本期作者:Oscar Li

数据在我们生活中无处不在,清晨起床,用手机打开新闻资讯;早高峰乘坐地铁,刷二维码进站;打开购物网站,下单购买商品……生活在当今这个高度信息化世界,一切行为几乎都可以使用数据来描述,每时每刻都有上亿条数据产生。如果善于挖掘,对其加以利用,则这些数据将会是蕴含巨大价值的宝藏,反之则是拖累系统的沉重负担。

那么大数据究竟是什么?国际顶级权威咨询机构麦肯锡给出定义,大数据指的是所涉及的数据及规模已经超过了传统数据库软件获取、存储、管理和分析的能力。这是一个被故意设计成主观性的定义,大数据在今天不同行业的范围可以从几十TB到几PB。随着数据量越来越大,大数据的存储和分析计算面临的挑战也越来越大。

在大数据飞速发展的几年中,已经形成了一个完备多样的大数据生态圈,如下图所示。大数据生态圈可以分为7层,这7层进一步概括,可以分为数据采集层,数据计算层和数据应用层3层结构。

数据采集层是整个大数据平台的源头,包括海量日志数据、业务系统结构化数据以及视频、图片等非结构化数据。大数据采集过程中挑战越来越多,主要来自于以下几个方面:

a) 大数据源多种多样

b) 数据量大且变化快

c) 如何保证所采集数据的可靠性

d) 如何避免采集重复数据

e) 如何保证采集数据质量

针对这些挑战,数据收集系统需要具备高可用性、高可靠性、可拓展性等特征,主流的产品有DataX、Sqoop、Flume等。通过多种工具的配合使用,可以满足多种数据源的采集传输工作。同时传输数据层通常情况还需要对数据进行初步的清洗、过滤、汇总、格式化等转换操作,使数据转换为更加适合查询的格式。数据采集完成后,考虑到可靠性及后续计算的便利性,通过HDFS、HBase等分布式文件系统进行存储。

(未完待续)

【恒驰信息:一站式大数据BI解决方案】

依托华为云数据仓库服务GaussDB(DWS)+BI工具及基础服务,实现库、仓、市、湖、+IoT,一体化仓湖一体,打造全局的、直观的、关联性的、可视化的运营数字化分析决策平台 ,以数据分析来驱动业务价值提升及管理提升。

解决方案优势

● 破除数据孤岛:跨系统、平台数据整合,实现业务数据互联互通、信息共享

● 统一的数据决策平台:统一数据统计口径,多维分析企业经营数据,帮助企业科学决策

● 多终端数据展现:PC端/移动端/大屏,随时随地满足相关人员的信息需求

猜你喜欢

转载自blog.csdn.net/HCIS_HENGCHI/article/details/128648760