「大数据集群的搭建和使用」背景知识:大数据概论

目录

一、大数据概念

二、大数据特点

三、大数据应用场景

四、大数据五大领域

五、大数据发展前景


一、大数据概念

大数据由巨型数据集组成,这些数据集规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。

大数据分析挑战包括数据捕获、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源。

适用于大数据的技术,包括:大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

大数据单位:

最小的基本单位是bit

按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

按照进率1024(2的十次方)来计算:

1 Byte =8 bit

1 KB = 1,024 Bytes = 8192 bit

1 MB = 1,024 KB = 1,048,576 Bytes

1 GB = 1,024 MB = 1,048,576 KB

1 TB = 1,024 GB = 1,048,576 MB

1 PB = 1,024 TB = 1,048,576 GB

1 EB = 1,024 PB = 1,048,576 TB

1 ZB = 1,024 EB = 1,048,576 PB

1 YB = 1,024 ZB = 1,048,576 EB

1 BB = 1,024 YB = 1,048,576 ZB

1 NB = 1,024 BB = 1,048,576 YB

1 DB = 1,024 NB = 1,048,576 BB

二、大数据特点

一般认为,大数据主要具有以下四个方面的典型特征:规模性(Volume)、多样性(Varity)、高速性(Velocity)和价值性(Value),即所谓的“4V”。

1. 规模性(Volume)

大数据的特征首先就体现为“数量大”,存储单位从过去的GB到TB,直至PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。随着信息技术的高速发展,数据开始爆发性增长。社交网络(微博、推特、脸书)、移动网络、各种智能终端等,都成为数据的来源。淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书约10亿的用户每天产生的日志数据超过300TB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。

2. 多样性(Varity)

广泛的数据来源,决定了大数据形式的多样性。大数据大体可分为三类:

一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;

二是非结构化的数据,如视频、图片、音频等,其特点是数据间没有因果关系;

三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据问的因果关系弱。

3.高速性(Velocity)

与以往的档案、广播、报纸等传统数据载体不同,大数据的交换和传播是通过互联网、云计算等方式实现的,远比传统媒介的信息交换和传播速度快捷。大数据与海量数据的重要区别,除了大数据的数据规模更大以外,大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

4. 价值性(Value)

这也是大数据的核心特征。现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识,并运用于农业、金融、医疗等各个领域,从而最终达到改善社会治理、提高生产效率、推进科学研究的效果。

三、大数据应用场景

大数据应用分类,核心分为两个大类:

  • 数据统计分析:报表、图表、大屏,为管理、业务优化等决策行为提供基础数据支撑。
  • 数据价值挖掘:利用数据统计、机器学习技术,挖掘出更多数据的潜在关系,为流程优化、效率提升,提供更加智能决策支撑,并且根据数据挖掘的结果进行数据建模可以做预测、预警等更多提升业务价值的应用。

**公司数据分析技术架构

按照行业看来:

大数据无处不在,大数据应用于各个行业,大大推动了社会生产和生活。

1. 安全领域:政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。

全国一体化政务大数据体系构建

 

2. 金融行业:大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。

金融行业的大数据分析需求和场景应用

 3. 新零售行业:大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。比如:抖音推荐的都是你喜欢的视频。

新零售模式下的算法模型和个性化推荐

4. 生物医学:大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。 

医疗行业大数据分析的作用和难点

5. 交通行业:利用大数据优化交通网络,提高交通效率,降低成本。

智慧交通大数据分析的特点和应用 

6. 教育商业:数据采集是教育大数据挖掘和分析的重点突破方向

教育大数据分析的数据采集和应用

 大数据的价值,远远不止于此,未来必将产生重大而深远的影响。

四、大数据五大领域

大数据五大核心领域分别为数据存储与计算、数据管理、数据流通、数据应用、数据安全。五大核心领域当前呈现不同发展现状,在数据要素大战略的新形势下,发展方向均进一步明确。

大数据产业五大核心领域

 

五大核心领域发展现状和新形势下的发展方向

发展现状

新形式下的发展方向

数据存储与计算

实现了海量数据的高效存储、计算

降低运维成本,提升处理效率

数据管理

头部行业实现关键数据的管理

各行业均实现全域数据管理

数据流通

点对点间流通路径完成初步探索

全社会范围规范化流通

数据应用

支撑核心业务分析和顶层决策

以无感形式嵌入全域业务

数据安全

推进外规内化与风险治理

安全左移的智能化治理

五、大数据发展前景

近一年,我国在政策、人才、资金等方面持续加码,为大数据后续发展注入强劲动力。

政策方面,中央、地方发布一系列支持文件,对大数据产业、数字技术、数据要素市场、数据安全等方面进行了重点部署。

  • 中央层面,2021年底,《“十四五”大数据产业发展规划》的出台明确了未来五年大数据产业发展工作的行动纲领。2022年,党中央、国务院先后通过《要素市场化配置综合改革试点总体方案》、《关于加快建设全国统一大市场的意见》、《关于构建数据基础制度更好发挥数据要素作用的意见》等文件,多次强调了释放数据要素价值对于我国发展的必要性、紧迫性,为我国大数据发展提供了良好的政策环境和明确的发展目标。
  • 地方层面,31个省(区、市)均通过发布大数据专题规划、数字经济总体规划等形式,明确了各地大数据技术、产业、应用的发展路线图、时间表,凸显出各地在大数据布局方面的积极性。

中国大数据分析平台各赛道政策方向 

人才方面,过半“双一流”高校设立大数据相关专业,多省份积极开展人才培育专项行动,人才供给能力显著增强。

  • 高校教育方面,147所“双一流”高校中有87所已开设了大数据专业,占比达到59%6,根据上海软科统计,大数据专业热度已经超过软件工程等传统热门专业。
  • 各省积极开展大数据人才培育专项行动,例如广东实施“十万”产业数字化符合性人才培训行动,上海要求各级党校(行政学院)要增加大数据与城市数字化转型的培训内容,浙江围绕数字人才制定“高精尖缺”人才目录,江苏搭建“智改数转”人才智库平台,福建明确要求县级以上地方人民政府制订大数据人才发展计划。

资金方面,多省份通过设立专项资金或采取税收优惠政策等方式,对大数据企业、应用进行定向扶持和培育。例如:

  • 宁夏对于区内符合标准的优质大数据企业给予最高300万的资金支持;
  • 山东、黑龙江等省份要求省内县级以上人民政府每年需统筹安排资金专项扶持大数据相关企业;
  • 浙江、广东、重庆等推出一系列围绕大数据企业的税收减免政策;
  • 江苏省每年在省级财政安排12亿元专项资金支持工业企业“智改数转”;
  • 贵州、辽宁、河北、云南等省份对建设成果显著的大数据应用项目补贴1000—3000万。

 大数据分析产业图谱

猜你喜欢

转载自blog.csdn.net/weixin_62909516/article/details/131613803
今日推荐