一.数据分析的步骤:
1.查看数据并提出问题
2.数据清洗
3.代码编写,提取出结果数据,并分析是否有异常数据,修改代码
4.根据数据选择合适的图表进行展示
5.根据图表小组讨论交流获得最终的结果
二.环境与原始数据准备
安装Anaconda2版本,同时更新软件包更新最新版本 conda upgrade --all
下载first.zip文件,解压
里面有3张csv文件分别是enrollments.csv,daily_engagements.csv,project_submission.csv和一个ipython的notebook
启动cmd 切换到解压之后的文件 输入 jupyter notebook 启动ipython笔记本
三.分析数据
1.从csv加载数据
1 2 3 4 5 6 7 8 |
|
1 2 3 4 5 6 7 8 9 10 |
|
2.修正数据类型
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
|
3.修改数据中的格式问题
1 2 3 4 |
|
4.探索数据
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
|
5.找出问题数据
1 2 3 4 5 6 7 |
|
6.追踪剩余的问题(移除数据集的测试账号)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
|
1 2 3 4 5 6 7 8 9 |
|
7.获取第一周就已经付费报名的学生
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
|
8.获取学习时间最长的学生和时间
1 2 3 4 5 6 7 8 9 10 11 12 13 |
|
9.找出第一周的访问数
1 2 3 4 5 6 7 8 9 |
|
10.区分项目通过的学生
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
|
11.对比两组学生的数据
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
|
12.绘制直方图
1 2 3 4 5 6 7 8 9 10 11 12 13 |
|
13.改进图表并分析
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|