七周成为数据分析师 第三周:Excel篇

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Julialove102123/article/details/89334165

导言:Excel常用于敏捷,快速,需要短时间相应的场景下是非常便捷的数据处理工具。相对于语言类例如python和R等则用于常规的,规律的场景中应用,便于形成日常规则统计分析。

对于学习的路径:Excel函数—>SQL函数——>python

必知必会内容:保证使用版本是2013+;培养好的数据表格习惯;主动性的搜索;多练习 

Excel常见函数

1.文本清洗类

主要是文本、格式以及脏数据的清洗和转换。很多数据并不是直接拿来就能用的,需要经过数据分析人员的清理。数据越多,这个步骤花费的时间越长。

  • 查找文本位置:find(“字符”,位置),常与left()提取所需要的位数组合使用;Search和Find类似,区别是Search大小写不敏感,但支持*通配符
  • 文本拼接函数:concatenate
  • 文本替换函数:replace、substitute(全局替换)
  • 删除字符串中多余的(前后的)空格:trim
  • 文本长度:len()、lenb()
  • Left/Right/Mid=Mid(指定字符串,开始位置,截取长度)截取字符串中的字符。Left/Right(指定字符串,截取长度)。left为从左,right为从右,mid如上文示意。MySQL中有同名函数。

2.关联匹配类

在进行多表关联或者行列比对时用到的函数,越复杂的表用得越多。多说一句,良好的表习惯可以减少这类函数的使用。

  • Lookup = Lookup(查找的值,值所在的位置,返回相应位置的值)最被忽略的函数,功能性和Vlookup一样,但是引申有数组匹配和二分法。
  • Vlookup=Vlookup(查找的值,哪里找,找哪个位置的值,是否精准匹配)Excel第一大难关,因为涉及的逻辑对新手较复杂,通俗的理解是查找到某个值然后黏贴过来。
  • Index=Index(查找的区域,区域内第几行,区域内第几列)和Match组合,媲美Vlookup,但是功能更强大。
  • Match=Match(查找指定的值,查找所在区域,查找方式的参数)和Lookup类似,但是可以按照指定方式查找,比如大于、小于或等于。返回值所在的位置。
  • Row返回单元格所在的行
  • Column返回单元格所在的列
  • Offset=Offset(指定点,偏移多少行,偏移多少列,返回多少行,返回多少列)建立坐标系,以坐标系为原点,返回距离原点的值或者区域。正数代表向下或向右,负数则相反。

3.逻辑运算类

数据分析中不得不用到逻辑运算,逻辑运算返回的均是布尔类型,True和False。很多复杂的数据分析会牵扯到较多的逻辑运算

  • ture—-1 false—–0 判断是真是假
  • 通常配合其他函数进行判断,相加判断满足条件的个数
  • IF :也有ifs用法,取代if(and())的写法。MySQL、Python中有同名函数。
  • And:全部参数为True,则返回True,经常用于多条件判断。MySQL中有同名函数,Python中有同名函数。
  • Or:只要参数有一个True,则返回Ture,经常用于多条件判断。MySQL中有同名函数,Python中有同名函数。
  • IS系列:常用判断检验,返回的都是布尔数值True和False。常用ISERR,ISERROR,ISNA,ISTEXT,可以和IF嵌套使用。

4.计算统计类

常用的基础计算、分析、统计函数,以描述性统计为准。具体含义在后续的统计章节再展开。

  • Sum/Sumif/Sumifs

统计满足条件的单元格总和,SQL有中同名函数。MySQL中有同名函数,Python中有同名函数。

  • Sumproduct

统计总和相关,特殊用法—-直接累加对应相乘,如果有两列数据销量和单价,现在要求卖出增加,用sumproduct是最方便的。MySQL中有同名函数。

  • Count/Countif/Countifs

统计满足条件的字符串个数。MySQL中有同名函数,Python中有同名函数。

  • Max

返回数组或引用区域的最大值。MySQL中有同名函数,Python中有同名函数。

  • Min

返回数组或引用区域的最小值。MySQL中有同名函数,Python中有同名函数。

  • Rank

排序,返回指定值在引用区域的排名,重复值同一排名。SQL中有近似函数row_number() 。

  • Rand/Randbetween

常用随机抽样,前者返回0~1之间的随机值,后者可以指定范围。MySQL中有同名函数。

  • Averagea

求平均值,也有Averageaif,Averageaifs。MySQL中有同名函数,python有近似函数mean。

  • Quartile

=Quartile(指定区域,分位参数)计算四分位数,比如1~100的数字中,25分位就是按从小到大排列,在25%位置的数字,即25。参数0代表最小值,参数4代表最大值,1~3对应25、50(中位数)、75分位

  • Stdev

求标准差,统计型函数,后续数据分析再讲到。

  • Substotal

=Substotal(引用区域,参数)汇总型函数,将平均值、计数、最大最小、相乘、标准差、求和、方差等参数化,换言之,只要会了这个函数,上面的都可以抛弃掉了。

  • Int/Round

取整函数,int向下取整,round按小数位取数。round(3.1415,2) =3.14;round(3.1415,1)=3.1。

  • rand:随机数字,用来随机抽样使用

多条件就和和多条件计数的情况下是非常多的,所以countifs和sumifs用的是非常的多,基本能搞定所有的统计报表,达到实时统计。缺点就是数据量达到一定程度后,Excel运行会比较慢

5.时间序列类

时间的本质是数字,周函数中,中国的习惯方式参数常选择2

常用时间序列函数:

  • year 年
  • month 月
  • day 日
  • date 日期
  • weekday 周几
  • now 现在的时间
  • weeknum
  • today 今天
  • Datedif:=Datedif(开始日期,结束日期,参数)日期计算函数,计算两日期的差。参数决定返回的是年还是月等。MySQL中有近似函数 DateDiff。

6.Excel使用常见技巧

快捷键

  • ctrl+方向键,光标快速移动
  • ctrl+shift+方向键,快速框选
  • ctrl+空格键,选定整列
  • shift+空格键,选定整行
  • ctrl+A 选择整张表
  • alt+enter 换行

功能

7.Excel常见工具

  • 数据切片:进行快速筛选(一般和多维分析关联在一起的),可以和作图工具进行相关联

    应用场景:做统计报表和仪表盘的统计筛选功能

  • 数据分析:直接对多想进行描述性统计

  • 自定义名称:再次使用可对其直接引用

  • 删除重复值:

  • 下拉列表:

  • 迷你图:

8.总结与练习

​ 个人觉得主要还是在于实践当中的灵活运用,作为学习,掌握有什么样的函数用来做什么就可以了,工作中遇到的时候可能忘了怎么拼,但是能直接搜索把函数找出来用知道在哪里面找就好。当然,记得更多的函数好处就是能迅速的通过函数的用法把函数灵活的组合去解决问题。其实最重要的也是通过逻辑关系把各种函数进行组合去解决问题。

练习:

数据表下载:

现在你有一份的餐食数据,我想通过excel知道

提示:先选取要分析的数据重建表。

  • 全国点评数最高的饭店是哪家?  =INDEX(C:D,MATCH(MAX(D:D),D:D),1)
  • 哪个城市的饭店人均口味最好?  数据透视表
  • 哪个类型的餐饮评价最好? 
  • 类型为川菜的店中,有多少个带「辣」字,又有多少个带「麻」字?   =FIND('麻',C2,1) 
  • 口味、环境、服务,三个评价都在8.0以上的饭店有几家?它们在哪个城市的占比最多?  筛选过滤、数据透视表 
  • 上海地区中,各个类型饭店服务前五名? (分组)   类型排序-->服务排序->序列化(=IF(B3=B2,E2+1,1))-->筛选1-5 或数据透视表

  • 没有评价的饭店有几家?  COUNT 或筛选
  • 将人均价格划分成0~50,50~100,100~150,150~200,200+这几个档次, 各个城市分别有几家?其中占比又是多少?    档次=INT(E2/50)+1 (应该先去掉没评分的店铺);数据透视(城市-档次);
  • 将点评、人均、口味、环境、服务这几个指标加工出一个综合评价系数,并且计算哪十家店是最好的(开放题)。

(1)清除脏数据;

(2)口味、环境、服务、点评是正比,人均是反比

(3)A :口味+环境+服务;B:点评(范围比较大),所以采用log(点评),ln(人均);C:log4(人均降权);(可以根据偏好适当加权)

(4)综合评价:(int(Ai+Bi-Ci)-MAX(A+B-C))/(MAX(A+B-C) - MIN(A+B-C))

(5)排序

  • 对上海地区的日本料理,做一次描述性分析(开放题)    数据分析-->描述统计

案例学习:

 

知乎百万用户分析

葡萄牙某银行电话营销

 

电信运营商用户流失-数据分析(excel)

Excel数据分析实例——各省人口数量及增长求职网站上关于数据分析的数据 

猜你喜欢

转载自blog.csdn.net/Julialove102123/article/details/89334165