Python数据分析与挖掘第一篇—基本介绍及环境搭建

一,数据分析与挖掘简介

  所谓数据分析,是对已有的数据进行分析,提取一些有价值的信息,比如平均数,标准差等。而数据挖掘,是对大量的信息进行分析和挖掘,得到一些未知的,有价值的信息。如今日头条类的新闻推送就是通过对用户的信息进行分析和挖掘,从而达到精准推送用户感兴趣的新闻。数据分析和数据挖掘往往是密不可分的,数据挖掘可以说是数据分析的进一步提升。

二,数据分析与挖掘的作用

  一句话说就是从数据中提取有用的信息。如信息推送,疾病治疗,网站优化等等。随着互联网的发展和web2.0的兴起,用户大量的产生数据和浏览数据,那么对数据进行分析就显得尤为重要,能有效的利用数据,才能长久的发展。而另一方面,AI也成为人们热议的话题,机器学习也离不开数据。因为数据分析和挖掘是渗透到互联网的每一个角落。

三,数据分析和挖掘的一般步骤

  1. 分析需求
  2. 获取数据
  3. 数据探索
  4. 数据预处理(数据清洗,数据变换,数据规约等)
  5. 数据建模
  6. 发布

三,模块简介与安装(python)

  1. numpy:pyhton中没有数组,而numpy模块提供数组(C语言级别),是数据处理的基础
  2. pandas:拥有两种重要的数据类型(Series,DataFrame),主要用于数据导入,数据处理,数据探索。
  3. matplotlib:作图,数据可视化
  4. scipy:进行数值计算,支持矩阵运算,提供许多高等数据处理功能,如积分,傅里叶变换等
  5. statsmodels:统计分析
  6. Gensim:文本挖掘

   安装技巧:
  

  Python模块下载网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/

猜你喜欢

转载自www.cnblogs.com/ifyoushuai/p/9813952.html