收到了新offer,下周开始新工作了,新工作是机遇也是挑战,加油吧,相信经过后面一段时间的历练,能给新公司带来业务上的提升,也定会对自己是一个提升。
面试的时候,B问我数仓的作用,目的,建数仓的好处。当时觉得我已经说了这么多,难道还不够吗,可能我们是focus面不同。
现总结一下,可以方便更多的伙伴来回答这个问题。
概念一大堆,如果通俗易懂的描述出让不同工种的人听懂呢。
- 数据仓库是保存企业数据资产,其价值有待挖掘。
- 数据仓库的数据是集成来多系统的数据且有关联关系。
- 数据仓库的数据经过来数据标准化和数据治理。
- 数据仓库的数据经过标准的规范流程,数据可信度高。
- 数据仓库有将处理模型保存,便于后面可以快速分析。
- 避免各种重复计算,浪费计算资源,经过性能优化。
- 建设数仓会对数据标准做统一,可以帮助改进业务系统以及指导新系统开发,说更大点,为企业信息化建设提供数据标准依据。
……
还有很多,说不出就是不善言谈的表现。
数仓分层的好处
我们对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:
- 清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。
- 数据血缘追踪:简单来讲可以这样理解,我们最终给业务诚信的是一能直接使用的张业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。
- 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。
- 把复杂问题简单化。讲一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。
- 屏蔽原始数据的异常。
- 屏蔽业务的影响,不必改一次业务就需要重新接入数据。
数据体系中的各个表的依赖就像是电线的流向一样,我们都希望它是很规整,便于管理的。
新公司要做的事
- 现有业务及数仓情况调查
- 制定项目规范
- 确定技术架构及工具选型
- 整理现有成果资料放到文件管理服务器
- 同TEAM激励
- 整理指标XMIND
- 开发,正式环境
转载于:https://www.jianshu.com/p/f9e365755388