数据挖掘 介绍与相关准备

数据挖掘简介

数据挖掘过程:

定义目标

获取数据(爬虫、统计网站)

数据探索

数据预处理(数据清洗、数据集成、数据变换、数据规约(精简))

挖掘建模(分类、聚类、关联、预测)

模型评价与发布

相关准备

numpy 可以高效处理数据、提供数组支持、模块依赖,如pandas、scipy、matplotlib,所以这是基础模块

pandas 主要用于进行数据探索和数据分析

matplotlib 作图模块,解决可视化问题

scipy 主要进行数值计算,同时支持矩阵运算,提供和很多高等数据处理功能,如积分、傅里叶变换、微分方程求解

扫描二维码关注公众号,回复: 20029 查看本文章

statsmodels 主要用于统计分析

Gensim 主要用于文本挖掘

sklearn、keras 前者机器学习,后者深度学习

猜你喜欢

转载自my.oschina.net/gain/blog/1795364