概述:
此分享是关于阿里研究中心:大数据时代的分享汇总
分享点:
大数据4V:大量(Volume);多样(Variety);快速(Velocity)和价值(Value) 数据是资产,云为数据资产提供存储、访问和计算 数据来源: 互联网企业:SNS、微博、视频网站、电子商务网站 物联网、移动设备、终端中的商品、个人位置、传感器采集的数据 联通、移动、电信等通信和互联网运营商 天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据等 金融行业 大数据对信息化影响: 传统软件开发流程敏捷开发(快速演进) 企业信息化不只是订单系统上线,订单处理也需自动化跟上 通过分析师对一系列的数据、行为的分析后才能得到用户需求 大数据的方向: 云计算是基础设施架构 大数据是灵魂资产 分析、挖掘是手段 发现和预测是最终目标
大数据相关技术:
分析技术: 数据处理:自然语言处理技术 统计和分析:A/B test; top N排行榜;地域占比;文本情感分析 数据挖掘:关联规则分析;分类;聚类 模型预测:预测模型;机器学习;建模仿真 大数据技术: 数据采集:ETL工具 数据存取:关系数据库;NoSQL;SQL等 基础架构支持:云存储;分布式文件系统等 计算结果展现:云计算;标签云;关系图等 存储: 结构化数据:海量数据的查询、统计、更新等操作效率低 非结构化数据:图片、视频、word、pdf、ppt等文件存储不利于检索 半结构化数据:转换为结构化存储和按照非结构化存储 存储问题解决方案:NoSQL技术: HDFS, HBASE, OceanBase, MongoDB等 计算: 因结构变化为导致计算模式变更 需求模式变化带来的计算碰到瓶颈 解决方案:MapReduce技术和流计算(twitter的storm和yahoo!的S4)
更多详情参见附件