【1】采集与集成
【2】存储与管理
【3】分析与挖掘
【4】可视化
【5】计算范型
【6】隐私与安全
01数据质量-无法回避的挑战
传统数据质量仅通过EFL方式执行,即抽取、转换、加载,包括解析、模式分析等。
没有完全覆盖数据质量的基本性质
挑战
扫描二维码关注公众号,回复:
4018294 查看本文章
分布式环境中,如何保证全局数据的一致性、精确性、完整性
流体环境中,如何保证时效性(e.g 时序一致性)
在大数据中,保证绝对的数据质量并不现实
高维、异质、模糊、海量、多变
02存储的老问题、新挑战
一些转变:
Hash大于扫描
单副本转向多副本
单阶段转向多阶段
压缩不再解压
03大数据分析的特点
传统BI | 数据科学&大数据分析 | |
焦点 | 发生了什么 | 将要发生什么 |
数据 | 小规模、干净数据,简单的统计模型 | 大规模、多样化、无关联数据,语义模糊、复杂的预测模型 |
支持 | 因果分析:事件及其将要发生的原因 | 关联分析:利用多个若关联数据源发现有潜在价值的结果 |
主要问题
监控动态流数据,跟踪变化趋势;而非仅仅考虑静态数据
和数据科学家一起工作,而非仅仅靠数据工程师
将大数据分析工具集成到核心业务和运营环节
04可视化的挑战
将大规模数据中蕴含的信息、知识与规律,利用计算机软件更好的揭示出来
通过人来的交互和反馈,触发新一轮的知识发现过程,是大数据分析的关键。因此,可视化是人类实现数据洞察的关键的交互通道。在大数据时代起到重要的技术支撑作用。
05计算范型
数据找程序 -> 程序找数据
Scale Up -> Scale Out
传统计算 -> 云计算
Virtual Machine & Multi Tenants
CPU -> HPU(Crowdsourcing)