《谁说菜鸟不会数据分析(入门篇)》总结

一、数据分析方法论

营销方面:4P、用户使用行为、STP理论、SWOT

管理方面的理论模型:PEST5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等

PEST宏观环境分析

P(political)

政治环境社会性质、执政党性质、方针、政策、法令

政治经济体制、财政税收政策、产业政策等

E(economic)

经济环境

宏观

GDP及其增长率、进出口总额、利率、税率、通货膨胀率、

微观

消费价格指数、居民可支配收入、失业率、劳动生产率

S(social)

社会环境(人口、性别比例、出生率和死亡率、种族结构、生活方式、教育状况、城市特点、宗教信仰等)

T(technological)

技术环境(新技术的发明和发展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数和保护情况等)

v PEST——行业分析

v 5W2H——用户行为分析、业务问题专题分析

Why+what+who+when+where

How+how much

逻辑树——业务问题专题分析

要素化:相同问题总结归纳成要素

框架化:要素组织成框架,不重不漏

关联化:框架内的各要素保持必要的相互关系,简单不孤立

v 4P——可了解公司的整体运营情况

产品(有形产品、人员、组织、服务等)、

价格(需求、成本、竞争)、

渠道(生产到用户中间的各个环节)、

促销(广告、宣传推广、人员推销、销售促进)

用户行为理论——用户行为分析

用户使用行为的完整过程:

 

 

二、数据处理

1.数据清洗

清除不必要的重复数据

(1)Excel中的方法

Ø Countif(区域,条件)

编号

重复标记

第二次重复标记

A667708

1

1

A310882

1

1

A520304

1

1

A356517

1

1

A776477

2

1

A466074

3

1

A466074

3

2

A466074

3

3

A776477

2

2

A218912

1

1

Ø 利用excel的高级筛选功能

选择待筛选数据,‘数据’—排序和筛选中’高级’—勾选‘选择不重复的记录’

Ø 条件格式法

选中待筛选数据,‘条件格式’—‘突出显示单元格规则’—‘重复值’

Ø 数据表透视法

选中待筛选数据,分别拖至‘行’和‘数值’

(2)sql

select Email from Person where Id  in (select Id from Person group by Email having count(*)>=2)

(3)删除重复数据

Ø Sql

delete from person where Id not in (select * from (select min(Id) as Id from Person group by Email having count(*)>=1) a)

Ø Excel

选中待筛选数据,‘数据’—‘删除重复项’

填充缺失的数据

平均值/删除/模型训练出的数据/保留缺失记录(样本大,缺失占比小)

(1)EXCEL

Ctrl+G 定位空值

Ctrl+Enter 不连续区域中同时输入同一个数据或公式

查找和替换

检测逻辑错误的数据

Excel中:

If+countif

条件格式:标出逻辑错误的数据

or(逻辑值1,逻辑值2...

and(逻辑值1,逻辑值2...

2. 数据加工

数据抽取

主要工作:

Ø 合并字段

& 运算符

Concatenate(text1text2,text3,text4......)

Texttext,格式)连接文本与数字时,指定数字的显示格式

Ø 截取部分字段(字段分列)

Excel中的分列

Ø 字段匹配

Vlookup(要查找的vlaue,单个区域期中第一列必须是要查找的值area,希望匹配的列序号,近似匹配1精确匹配0)

精确匹配就是指值必须相等

近似匹配指在待查找区域area的第一列找接近又不大于area的值

数据计算

加减乘除、自动求和、求平均值、

日期的加减法:

Today()

返回当前时间

2018/4/7

now()

返回当前时间

2018/4/7 9:55

Ctrl+;

返回当前时间

2018/4/7

Date(year,month,day)

返回指定日期(可用来进行加减)

=DATE(2017,2,8)

2017/2/8

=DATE(YEAR(G6)+10,MONTH(G6)+6,DAY(G6)+10)

2027/8/18(比上一个多了10年,6个月,10天)

 

Datedif(起始日子,结束日期,unit)

返回两个日期之间的年//日间隔数

Unit取值:

Y:相差年份

M:相差月份

D:相差天数

YM:相差月份(忽略了年份和天数)

MD:相差天数(忽略了年份和月份)

YD:相差天数(忽略了年份)

=DATEDIF(G6,H6,"Y")&""

10

=DATEDIF(G6,H6,"MD")&"天(忽略年份和月份的天数)"

10天(忽略年份和月份的天数)

=DATEDIF(G6,H6,"YM")&"月(忽略年份和天数)"

6月(忽略年份和天数)

=DATEDIF(G6,H6,"YD")&"天(忽略年份天数)"

191天(忽略年份天数)

=DATEDIF(G6,H6,"D")&""

3843

 数据分组

vlookup

数据转换

‘选择性粘贴’—‘转置’

多选转化为0-1

=IF(ISNUMBER(HLOOKUP(find_value,area,列序号,0/1)),1,0)

=IF(ISNUMBER(SEARCH(find_value,with_text)),1,0)

数据抽样

Rand()函数

返回(0,1)的均匀分布随机数,每次计算工作表时都将返回一个新的数值

数据分析方法

数据分析的作用:现状分析、原因分析、预测分析

三大作用对应的分析思路:对比、细分、预测

 

猜你喜欢

转载自blog.csdn.net/brave_jcc/article/details/79847253