01 大数据

大数据概述

在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长。
以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!
总体来说:大数据就是:
1、企业存在海量的数据
2、企业有对海量数据进行挖掘的需求
3、现在技术成熟,出现了对海量数据进行挖掘的一整套软件工具

大数据的特点

1.Volume(大量):
  人类产生的所有印刷材料的数据量是200PB,历史上全人类总共说过的话的数量大约是5EB.当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
2.Velocity(高速): 这是大数据区分与传统数据挖掘的最显著的特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。
在如此海量的数据面前,处理数据的效率就是企业的生命。
3.Variety(多样性): 这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据。非结构化数据越来越多,包括网络日志,音频,视频,图片,
地理位置信息等等。这些多类型的数据对数据的处理能力提出了更高要求。
4.Value(低价值密度): 价值密度的高低与数据总量的大小成反比。如何快速对有价值的数据“提纯”成为目前大数据背景下待解决的难题。

存储单位概述

bit     0/1
Byte    8bit
KB      1024Byte
MB      1024KB
GB      1024MB
TB      1024GB
PB      1024TB
EB      1024PB
ZB      1024EB 
YB      1024ZB
BB      1024YB 
NB      1024BB
DB      1024NB 

大数据在现实生活中的具体应用

电商推荐系统:基于海量的浏览行为、购物行为数据,进行大量的算法模型的运算,得出各类推荐结论,以供电商网站页面来为用户进行商品推荐


精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,进行用户画像(得到用户的各种属性标签),然后可以为广告主进行有针对性的精准的广告投放

金融大数据 精准营销:依据客户消费习惯、地理位置、消费时间进行推荐 风险管控:依据客户消费和现金流提供信用评级或融资支持,利用客户社交行为记录实施信用卡反欺诈 决策支持:利用抉策树技术进抵押贷款管理,利用数据分析报告实施产业信贷风险控制 效率提升:利用金融行业全局数据了解业务运营薄弱点,利用大数据技术加快内部数据处理速度 产品设计:利用大数据计算技术为财富客户推荐产品,利用客户行为数据设计满足客户需求的金融产品

大数据公司组织结构

平台组 
集群环境搭建
集群性能监控
集群平台性能优化

数据仓库组
ETL做数据清洗
Hive数据分析和数据仓库建模

数据挖掘组
算法工程师
推荐系统工程师
用户画像工程师

报表开发组
JavaEE开发工程师

全部作品

Lucene   
Nutch     
Hadoop

Hadoop

hadoop中有3个核心组件:
分布式文件系统:   HDFS      实现将文件分布式存储在很多的服务器上
分布式运算编程框架:MAPREDUCE 实现在很多机器上分布式并行运算
分布式资源调度平台:YARN      帮用户调度大量的mapreduce程序,并合理分配运算资源

猜你喜欢

转载自www.cnblogs.com/zhaochengf/p/12128077.html