数据分析学习总结

作为一个应用数学系的学生，两年前的我，对学校实行的大类培养深感不满，计算机原理、大学物理、C语言编程、数据结构...... 你能想象这都是数学系的学生在学的东西吗？看着满满当当的课表和中午来不及赶回寝室的一个小时的休息时间，欲哭无泪啊......

为了避免自己学艺不精加之对统计学的兴趣，我趁着寒暑假的时间自修了大量的统计学的课程，随机过程、线性回归分析、多元统计分析、时间序列分析、矩阵分析......贡献了自己大量的课余时间。

一个偶然的机会，我接触到了数据挖掘这个词，从此一发不可收拾，看到自己在多元统计分里面学到的距离的定义（欧氏距离，马氏距离（也称为统计距离，解决变量之间具有相关性不独立的一种距离度量方式），街区距离，余弦距离（利用余弦函数的的有界性将两个向量之间的距离控制在0-1之间）......）被用于文档分类工作（以词频对文档进行分类工作），主成分分析（PCA），因子分析，聚类与分类以及统计学里面接触到的贝叶斯公式（这里给出贝叶斯公式的一个解释，一般情况下我们求取概率可分为两种情况一种是推断一件事情发生的概率，称为先验概率（参见统计学里面的全概率公式）；另一种是事情已经发生，需要根据发生的结果推断导致这件事情发生的几个原因的概率。举个例子：推断一个抽烟喝酒不锻炼的人患心脏病的概率就是先验概率，而推断一个患心脏病的人的病是分别由抽烟喝酒不锻炼三个因素导致的概率就是后验概率），运筹学里面接触到的线性规划的对偶问题，怎么将非线性空间转化为线性空间以达到可以将线性空间中成熟的理论应用到非线性空间的目的。这些知识与计算机知识结合产生了一个新大陆。

大二的时候看了一本书（数据挖掘导论），对现在主流算法的原理有了一定的了解。（感觉大部分都是自己在多元统计分析学过的知识，理解没有什么困难，500页的书果然没白看，嘻嘻嘻......）

学了两个月的Python对一些基础编程知识和库有了一定的了解，当初也没想到上手会这么快（大类培养还是有一定好处的，至少很多全局变量，局部变量，形参实参，循环语句判断语句在C里面都有学到过，省去了大部分的时间，重点是完全可以自学，不需要大神带。），也把Python里面比较出名的几个库（Numpy,Pandas,Matplotlib......）过了一遍（用的书是：Pyhthon for Data Analysis），但是过完很容易忘啊，果然工具这种东西是要经常使用的，熟能生巧嘛！

人家说一个人只要从事某个职业7年以上，基本上就能成为这个行业的人才了，我这算是提前确立了职业目标了吧！

目前在学习机器学习的东西，也会将自己学到的东西与大家一起分享，有什么不对的地方也希望大家可以帮忙指正！

数据分析学习总结

猜你喜欢