"阿里研究中心:大数据时代"分享总结

概述:

此分享是关于阿里研究中心:大数据时代的分享汇总

分享点:

大数据4V:大量(Volume);多样(Variety);快速(Velocity)和价值(Value)
数据是资产,云为数据资产提供存储、访问和计算

数据来源:
互联网企业:SNS、微博、视频网站、电子商务网站
物联网、移动设备、终端中的商品、个人位置、传感器采集的数据
联通、移动、电信等通信和互联网运营商
天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据等
金融行业
大数据对信息化影响:
传统软件开发流程敏捷开发(快速演进)
企业信息化不只是订单系统上线,订单处理也需自动化跟上
通过分析师对一系列的数据、行为的分析后才能得到用户需求

大数据的方向:
云计算是基础设施架构
大数据是灵魂资产
分析、挖掘是手段
发现和预测是最终目标

大数据相关技术:

分析技术:
数据处理:自然语言处理技术
统计和分析:A/B test; top N排行榜;地域占比;文本情感分析
数据挖掘:关联规则分析;分类;聚类
模型预测:预测模型;机器学习;建模仿真

大数据技术:
数据采集:ETL工具
数据存取:关系数据库;NoSQL;SQL等
基础架构支持:云存储;分布式文件系统等
计算结果展现:云计算;标签云;关系图等

存储:
结构化数据:海量数据的查询、统计、更新等操作效率低
非结构化数据:图片、视频、word、pdf、ppt等文件存储不利于检索
半结构化数据:转换为结构化存储和按照非结构化存储
存储问题解决方案:NoSQL技术: HDFS, HBASE, OceanBase,  MongoDB等

计算:
因结构变化为导致计算模式变更
需求模式变化带来的计算碰到瓶颈
解决方案:MapReduce技术和流计算(twitter的storm和yahoo!的S4)

更多详情参见附件

猜你喜欢

转载自snv.iteye.com/blog/1890763
今日推荐