大数据 介绍

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/liu_changshen/article/details/102727189

1.什么是大数据

  • 指数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据。

2.大数据的特点

1.海量化:数据量从TB到PB级别
2.多样化:数据类型复杂,超过80%的数据是非结构化的
3.快速化:数据量在持续增加(两位数的年增长率)
数据的处理速度要求高
4.高价值:在海量多样数据的快速分析下能够发挥出更高的数据价值

3.大数据能做什么:

在海量数据背景下:

  • 快速查询 - 全量查询
  • 数据存储 - 量大,文件大
  • 快速计算 - 对比传统方案
  • 实时计算 - 最新数据
  • 数据挖掘 - 新价值

RAID 基于硬件的数据备份机制
RAID0 磁盘使用率100%,硬件不做任何物理备份。
RAID1 磁盘使用率50%,两个硬件磁盘进行数据备份备份的比例是1:1。

海量数据快速查询

    在海量数据的背景下,进行数据的快速查找,快速提取。(快速指查找或提取效率3秒内)
    例如:每个用户查询上月手机流量记录或上月通话明细。都是在海量用户中查询某一个人的记录,三秒内出结果。

传统数据计算特点:

数据量小(基本单位是MB、GB)、
数据种类少(大都为结构化数据)、
增长速度慢

海量数据存储:

         A:大数据能够存储海量数据
大数据时代数据量巨大,
1TB=1024*1G 约26万首歌(一首歌4M)
1PB=1024*1024*1G 约2.68亿首歌 (一首歌4M)
         B:大数据能够存储单个大文件。
目前市面上最大的单个硬盘大小约为10T左右。若有一个文件20T,将	无法存储。大数据可以存储单个20T文件,甚至更大。

海量数据快速计算(离线)

能够在海量数据的基础上进行快速计算,这里的“快速”是与传统计算	方案对比。

海量数据背景下,使用传统方案计算可能需要一星期时间。使用大数据	技术计算只需要30分钟。

   例如:计算全国移动用户(全国数据量大),全年内通话总时间(每个人	一年通话总和)大于1万分钟的人,按照从多到少顺序

海量数据实时计算(实时)

在海量数据的背景下,对于实时生成的最新数据,需要立刻、马上传递
到大数据环境,并立刻、马上进行相关业务指标的分析,并把分析完的
结果立刻、马上展示给用户或者领导。

  例如:欠费的手机充话费,充值完成后,手机几秒钟后就能使用。
  例如:双十一实时交易大屏

挖掘前所未有的新的价值点。

原始企业内数据无法计算出的结果,使用大数据能够计算出。

  例如:啤酒和尿不湿。超市原始数据没有计算出两者之间的关系,使用大数
据计算后,发现将两者放的很近后,两者的销量都会有有大幅提升。
原因在于,国外大部分买尿不湿的都是男性,男性喜好和啤酒,买尿
不湿时顺便那些啤酒很惬意。

挖掘(算法)有价值的数据

在海量数据背景下,使用数据挖掘算法,挖掘有价值的指标(不使用这
些算法无法算出)

   例如:通过数据挖掘算法计算花的种类。
通过算法识别出这些花是玫瑰花?百合?茉莉花?菊花?桂花?

大数据行业应用

电信,零售,金融服务,制造,医疗,物联网,智慧城市等。

大数据行业

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大数据就业岗位:

1、ETL工程师
2、数据仓库工程师
3、大数据开发工程师
4、Hadoop工程师
5、Spark/Flink工程师
6、大数据分析师
7、大数据算法工程师
8、大数据运维工程师
9、大数据解决方案
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/liu_changshen/article/details/102727189