大数据自我进阶(数据仓库)-暂未完全完成

什么时候需要数据仓库?

1.当决策者要进行战略分析或者展示统计的需求

2.并且数据量非常庞大,而且各个都是数据孤岛。

当满足这2个条件后,就需要搭建数据仓库。

数据仓库的第一步(数据清洗)

为了能准确的分析,需要将各个业务系统的数据汇总在一起,进行分析

数据仓库第一步所遇到的3个问题

 注意关键点(面试中和从0-1搭建中会遇到的问题):

         1.数据字段不同,比如字段名称,多个业务系统的叫法不一样,有叫name、user_name、也有nike_name的

        2.数据值有歧义,比如医疗系统中,同一种病的诊断结果,由于人为手写,有叫Hiv、艾滋病、获得性免疫缺陷综合征的

        3.数据非唯一,比如商城,你们想统计每个人消费总额是多少,但是你们有3个系统,淘宝有一套,京东有一套,拼多多有一套,怎么样确定唯一的用户

这是我工作5年来,别人问到的,以及自己遇到的问题,那么遇到这种情况应该怎么办?

所以说,在把数据备份一份到ods层后,核心第一步绝对是先进行【数据清洗】

数据清洗对应的解决方案

猜你喜欢

转载自blog.csdn.net/qq_38403590/article/details/130012729