大数据入门学习笔记(壹) - 大数据概述

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/bingdianone/article/details/83794824

大数据故事

电商把假货卖给了谁,后台通过个人的消费情况来推断每个人的消费额度,来推荐出相对应价格的产品。

大数据背景

当代社会中,科学,金融,零售,物联网,交通,社交网络等数据都是无时无刻在产生越来越大的,所以大数据是无处不在的。

大数据基本概念

大数据定义

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据量并不一定是大的,重要的是我们能够从数据中挖掘出大量有用的价值。

大数据4V特征

在这里插入图片描述
Volume:数据量很大,GB,TB,PB,EB,ZB越来越大的数据。
Varirty :类型繁多,各种各样的类型;比如数据源多,各种各样的日志;或者结构化数据和非结构化数据;关联性数据如游客和游客上传图片的位置;视频文件,文档文件。
Value:价值,从大量数据中挖掘大量的价值;随着数据量大;难度就越来越高。也就是说价值密度比较低。
Velocity:速度快;随着业务的发展;批处理已经满足不了企业需求,需要引进流处理和实时处理。

大数据要解决的问题

在这里插入图片描述

大数据涉及到的技术

  1. 数据采集:必须有大量数据源才可进行数据的挖掘。
  2. 数据存储:随着数据的扩大;必经之路也是必须解决的,文件系统问题。
  3. 数据处理/分析/挖掘:数据到来后需要特定的手段来进行分析,这时候需要用到各种各样的大数据框架,技术选型问题。
  4. 可视化:需要给领导或者相关人员以图形化的形式直观地展示数据价值。

大数据带来的技术挑战

在技术架构上的挑战

  • 对现有数据库管理技术的挑战。随着互联网的发展,我们的数据量已经不能用传统数据库来存储,即便传统数据库也有集群的概念,但是也不能处理分析TG以上的数据,所有现阶段已经没办法直接使用结构化的查询和存储来解决这些问题了。
  • 经典数据库技术并没有考虑数据的多类别。我们原来的数据库可能只有结构化的数据,比如一个人表,存储join,压缩内容无法得到满足。
  • 实时性的技术挑战。数据的价值随着时间的流逝而大大降低的。当数据产生后我们应该尽快的对数据进行处理。比如电商的推荐系统,早期的时候市场上使用批量处理来推荐商品,半天或者一天,如果使用实时的推荐则会获得更高的利益。
  • 网络架构、数据中心、运维的挑战。我们每天创造的数据量几乎都是以爆炸式的增长的。对于收集,存储,计算这些数据都是一个棘手的问题,机器,资源越来越多。

其他挑战

  • 数据隐私。比如每个人当下访问的网站,发送的定位。这些都是问题。
  • 数据源的复杂多样。数据的多样化要进行兼容处理也是一个问题。

如何对大数据进行存储和分析

在这里插入图片描述
单机机器肯定存在瓶颈的,为了解决以上系统瓶颈问题,Google提出了革命性的大数据技术论文,从而衍生处理开源工具MapReduce,HDFS,Yarn。
如何学好大数据,学习大数据的主要来源就是官网以及项目实战对知识点进行巩固和融合贯通,同时也可以参加社区活动:Meetup、开源社区大会、线下沙龙等。
切记:多动手多练习贵在坚持!!!

猜你喜欢

转载自blog.csdn.net/bingdianone/article/details/83794824
今日推荐