数据分析入门的一些注意概念

数据分析入门的一些注意概念

题主目前正在入门数据分析,接下来的时间会把自己的学习轨迹记录下来分享给大家,和大家共勉!

本文内容

1.扯点前言
2.数据分析师的职业素养
3.由两个实例讲述初步接触数据分析

1.扯点前言

1.1任何学习的方法论

理论知识(像大学内学习到的内容是可以通过勤奋读书获得的),但是将知识转换为能让你收益的商业智慧,是需要体验(自己策划一个方案、动手尝试、得到反馈、再次调整方案)为基础的

1.2刻意练习-学以致用

学到的知识要刻意结合自己的工作场景进行连续,才能学得快乐,学以致用会让你学得上瘾!

1.3为什么各行业都要学习数据分析?

学会建立个人壁垒:职业背景+数据分析能力

单拼职业能力或者数据分析能力我们可能搞不过术业专攻的,因此我们要给自己建立壁垒。

在职业人群中你有数据分析能力,在职业分析师中,你有行业背景能够带领技术团队!

1.4

数学和算法的区别

算法不等于数学,数学要探索,算法只要理解+记忆方法,算法只是应用型的工科数学而已

1.5数据分析VS数据挖掘

数据分析没用到机器学习,挖掘用到机器学习

1.6数据分析的一般流程

在这里插入图片描述

注意3分析算法和4可视化表达是不断迭代的。根据可视化输出调整分析算法。调整的算法又产生新的输出

1.7数据分析师需要具备的能力
在这里插入图片描述

相对于软实力(思维)的培养,技术永远是最好学的,一个好的数据分析师重要的是软(分析思维)积累!

1.8警惕走马观花(刷视频)学习法

人的短期有效记忆只有3h

因此对于读书/视频内容要定期做完整的笔记总结

对于书/视频中出现的代码要自己敲一遍,注释详尽规范,并且整理出简单的功能伪代码框架。

1.9目标导向

一切不以现实利益(学生党为了能上更好的学校或得到更好的成绩 工作党升职加薪)为目的的学习都是耍流氓!

1.10数据可视化的功能需求和非功能需求

数据可视化的功能需求(本质目的):是为了挖掘数据背后的规律

数据可视化的非功能需求(锦上添花):展示形式高大上:是为了更好地展现规律

因此不要舍本逐末,过度追究展示形式的高大上,reason1浪费时间 reason2有时复杂的展示形式不一定会比简单的展示形式好

2.数据分析师的职业素养

2.1好奇,是数据分析师进步的动力

要时时刻刻保持对数据的热情,我有了大数据就能搞事情

2.2谨慎,是数据分析师成熟的标志

得到结果不要轻易发布,只经过一种方法得到的结果往往是偏颇甚至错误的

没有完美的的数据,没有完美的方法

解决方法–多维数据比较验证

3责任,是数据分析师存在的意义

我们要坚信数据分析得到的结果一定能运用到发现社会问题,改善社会建设中去,数据分析任重而道远。

3.由两个实例讲述初步接触数据分析

3.1各种统计图以及使用场景

在这里插入图片描述

3.2 实例1 1978年以来人口出生情况

3.2.1得出结论

a人口自然增长率在减少

b各个阶段增长/下降的幅度(加速度)不同

c出现两个小凹槽

c.1第一个凹槽上升是因为1985年中国婴儿潮

在这里插入图片描述

c.2第二个凹槽只下降不上升

国家统计局给出的解释

16-25岁适龄生育女性数量减少

羊年封建传统不生孩子
在这里插入图片描述

左图发现2015年女性分布最多的在25岁,确实和最佳生育年龄24岁有一岁之差

右图发现观察以往数据羊年封建传统确实有不生孩子的传统

在这里插入图片描述
3.2.2额外收获

并不是所有的数据都用酷炫可视化的图,效果最好,而是根据你的研究来定

a例如此题三问南丁格尔玫瑰图就没有柱状图好用

b但是如果研究人口老龄化使中国人口收缩就可以用玫瑰图

注南丁格尔玫瑰图

a每个分类所占角度平分360

b各色块圆饼区均由圆心往外的面积来表现数字

3.3链家房产数据–数据会说谎

在这里插入图片描述
3.3.1爬取链家房产数据,我们会发现其实链家每个城市只给出前100页(每页20个)的房源数据,用这样的局部数据用来衡量整体城市房价太过偏颇

局部数据解决方案

a公司战略合作直接从链家数据库得到原始数据

b提高爬虫技术获得全部数据

3.3.2就算我们得到全部数据得到的结论不一定正确

a链家等二手房交易平台报价会低于实际房价来吸引更多关注

b地址信息给的不详细,不精确(eg给一个小区名称)这样在小范围分析房产信息不一定能得到精确的结论

解决方法

数据清洗

在这里插入图片描述

纵轴:误差

横轴:房价

尝试多种方法降低误差,发现八万以下的房价预测较为准确,八万以上的房价预测误差较大

(可能原因:豪宅数据太少,受区位因素的影响大)

所以说即使进行了步骤正确的数据分析(本例采用了多个模型进行分析,为降低误差率,最后还是无法突破百分之8的最小误差),结果也不一定是正确的,数据分析师对待数据一定要谨慎!

在这里插入图片描述

重点:一次性得到的结果绝对是不符合要求或说问题很大的,要多次进行调整方法和可视化输出的循环改良,得到最终输出

3.4如何美化可视化输出–目前流行的大数据可视化形式

在这里插入图片描述
3.4.1hiveplots(蜂箱图)

在这里插入图片描述
a描述各大学生发展去向

b其中弧的长度代表每个城市大学生的数量

在这里插入图片描述
c具体看每个城市大学生去向需要辅助图(拆分为每个城市为单位输出)

在这里插入图片描述

d制作方法–1用python进行数据处理2将数据结果输入D3(一个基于js的画图网站)

3.4.2动态大屏

在这里插入图片描述

在这里插入图片描述

3.4.3可视化图表

在这里插入图片描述

3.4.4各类制图及相应软件

在这里插入图片描述

多看看D3 Echart的gallery 可以使你对于数据输出提升很大

3.4.5其他推荐

推荐课程

强烈推荐:3blue1brown数学教程
https://space.bilibili.com/88461692?from=search&seid=2041065308167205854#/channel/detail?cid=9450

课程配套python动画模型

大神使用的库manim,基于py2.7
https://github.com/3b1b/manim
b站上研究大神的库的中文解释
https://www.bilibili.com/read/cv19963

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_40974922/article/details/93112871