BigData Technique&&Application指南-笔记1

 1.数据的量级

传统企业数据量基本上在TB之上,大型互联网企业达到了PB以上。

 2.大量不同的数据类型

 结构化数据:是存储在数据库里,可以用二维表来逻辑表达数据。

 半结构的非结构化数据:一般都是纯文本数据,可以通过解析来获取数据的项,比如XML和JSON(包含嵌套键值对的形式存储)。

无结构的非结构化数据:非纯文本类的数据, 没有固定的格式,无法解析出其值。如web网页、电子邮件、RTF。

图.不同的大数据主主体

 首先是关系型数据库,然后是个人产生的数据,最后是机器产生的数据。

 3.需要解决的问题

由于海量数据敏捷的产生,所以需要实时快速的进行获取、存储和分析,并且给出结合现实问题的决策过程。

一。大数据从创建到获取是有时延的,比如用传统的SQL语句对PB级的数据进行查询,可能需要几个小时,所以就需要技术来解决这个问题,降低时延

二。大数据的实时分析,需要高速处理,比如某些类型的数据就需要实时处理以实现业务价值。

研究表明,数据的价值会随着时间的增加而降低。如果时间过长,可能会造成数据垃圾和信息过剩,导致数据价值丢失。

4.大数据的挑战 

 大数据技术有5个核心的部分,数据采集、数据存储、数据清洗、数据挖掘、数据可视化

5.各行业大数据应用的需求

一。互联网和电子商务

用户行为分析:鼠标点击和移动分析、触摸、键盘输入行为、眼球运动。

基于大数据相关性分析的推荐系统、内容广告推荐投放、产品分析、

二。零售业

产品推荐、金融行业欺诈行为检测和预防。

猜你喜欢

转载自www.cnblogs.com/BlueBlueSea/p/9630111.html