Python 数据挖掘与机器学习

近年来,Python编程语言受到越来越多科研人员的喜爱,在多个编程语言排行榜中持续夺冠。同时,伴随着深度学习的快速发展,人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础,因此,掌握常用机器学习算法的工作原理,并能够熟练运用Python建立实际的机器学习模型,是开展人工智能相关研究的前提和基础。

畅学Python编程及机器学习理论与代码实现方法,从“基础编程→机器学习→代码实现”逐步掌握吧

通过实际案例的形式,介绍如何提炼创新点,以及如何发表高水平论文等相关经验。旨在帮助学员掌握Python编程的基础知识与技巧、特征工程(数据清洗、变量降维、特征选择、群优化算法)、回归拟合(线性回归、BP神经网络、极限学习机)、分类识别(KNN、贝叶斯分类、支持向量机、决策树、随机森林、AdaBoost、XGBoost与LightGBM等)、聚类分析(K均值、DBSCAN、层次聚类)、关联分析(关联规则、协同过滤、Apriori算法)的基本原理及Python代码实现方法。

Python编程入门

1、Python环境搭建( 下载、安装与版本选择)。

2、如何选择Python编辑器?(IDLE、Notepad++、PyCharm、Jupyter…)

3、Python基础(数据类型和变量、字符串和编码、list和tuple、条件判断、循环、函数的定义与调用等)

4、常见的错误与程序调试

5、第三方模块的安装与使用

6、文件读写(I/O)

7、实操练习

Python进阶与提高

1、Numpy模块库(Numpy的安装;ndarray类型属性与数组的创建;数组索引与切片;Numpy常用函数简介与使用)

2、Pandas模块库(DataFrame数据结构、表格的变换、排序、拼接、融合、分组操作等)

3、Matplotlib基本图形绘制(线形图、柱状图、饼图、气泡图、直方图、箱线图、散点图等)

4、图形样式的美化(颜色、线型、标记、字体等属性的修改)

5、图形的布局(多个子图绘制、规则与不规则布局绘制、向画布中任意位置添加坐标轴)

6、高级图形绘制(3D图、等高线图、棉棒图、哑铃图、漏斗图、树状图、华夫饼图等)

7、坐标轴高阶应用(共享绘图区域的坐标轴、坐标轴刻度样式设置、控制坐标轴的显示、移动坐标轴的位置)

8、实操练习

数据清洗

1、描述性统计分析(数据的频数分析:统计直方图;数据的集中趋势分析:算数平均值、几何平均数、众数、极差与四分位差、平均离差、标准差、离散系数;数据的分布:偏态系数、峰度;数据的相关分析:相关系数)

2、数据标准化与归一化(为什么需要标准化与归一化?)

3、数据异常值、缺失值处理

4、数据离散化及编码处理

5、手动生成新特征

6、实操练习

变量降维

1、主成分分析(PCA)的基本原理

2、偏最小二乘(PLS)的基本原理

3、案例实践

4、实操练习

特征选择

1、常见的特征选择方法(优化搜索、Filter和Wrapper等;前向与后向选择法;区间法;无信息变量消除法;正则稀疏优化方法等)

2、案例实践

3、实操练习

群优化算法

1、遗传算法(Genetic Algorithm, GA)的基本原理(以遗传算法为代表的群优化算法的基本思想是什么?粒子群算法、蜻蜓算法、蝙蝠算法、模拟退火算法等与遗传算法的区别与联系)

2、遗传算法的Python代码实现

3、案例实践一:一元函数的寻优计算

4、案例实践二:离散变量的寻优计算(特征选择)

5、实操练习

线性回归模型

1、一元线性回归模型与多元线性回归模型(回归参数的估计、回归方程的显著性检验、残差分析)

2、岭回归模型(工作原理、岭参数k的选择、用岭回归选择变量)

3、LASSO模型(工作原理、特征选择、建模预测、超参数调节)

4、Elastic Net模型(工作原理、建模预测、超参数调节)

5、案例实践

6、实操练习

前向型神经网络

1、BP神经网络的基本原理(人工智能发展过程经历了哪些曲折?人工神经网络的分类有哪些?BP神经网络的拓扑结构和训练过程是怎样的?什么是梯度下降法?BP神经网络建模的本质是什么?)

2、BP神经网络的Python代码实现(怎样划分训练集和测试集?为什么需要归一化?归一化是必须的吗?什么是梯度爆炸与梯度消失?)

3、BP神经网络参数的优化(隐含层神经元个数、学习率、初始权值和阈值等如何设置?什么是交叉验证?)

4、值得研究的若干问题(欠拟合与过拟合、泛化性能评价指标的设计、样本不平衡问题等)

5、极限学习机(Extreme Learning Machine, ELM)的工作原理

6、案例演示 7、实操练习

KNN、贝叶斯分类与支持向量机

1、KNN分类模型(KNN算法的核心思想、距离度量方式的选择、K值的选取、分类决策规则的选择)

2、朴素贝叶斯分类模型(伯努利朴素贝叶斯BernoulliNB、类朴素贝叶斯CategoricalNB、高斯朴素贝叶斯besfGaussianNB、多项式朴素贝叶斯MultinomialNB、补充朴素贝叶斯ComplementNB)

3、SVM的工作原理(SVM的本质是解决什么问题?SVM的四种典型结构是什么?核函数的作用是什么?什么是支持向量SVM扩展知识(如何解决多分类问题?SVM除了建模型之外,还可以帮助我们做哪些事情?)

4、案例实践

5、实操练习

决策树、随机森林、LightGBM、XGBoost

1、决策树的工作原理(微软小冰读心术的启示;什么是信息熵和信息增益?ID3算法和C4.5算法的区别与联系);决策树除了建模型之外,还可以帮我们做什么事情?

2、随机森林的工作原理(为什么需要随机森林算法?广义与狭义意义下的“随机森林”分别指的是什么?“随机”体现在哪些地方?随机森林的本质是什么?怎样可视化、解读随机森林的结果?)

3、Bagging与Boosting的区别与联系

4、AdaBoost vs. Gradient Boosting的工作原理

5. 常用的GBDT算法框架(XGBoost、LightGBM)

6、案例实践

7、实操练习

K均值、DBSCAN、层次聚类

1、K均值聚类算法的工作原理

2、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法的工作原理

3、 层次聚类算法的工作原理

4、 案例讲解

5、实操练习

关联规则 协同过滤 Apriori算法

1、关联规则算法的工作原理

2、协同过滤算法的工作原理

3、Apriori算法的工作原理

4、案例讲解

5、实操练习

信息检索与常用科研工具

1、如何无障碍地访问Google、YouTube等网站?(谷歌访问助手、VPN等)

2、如何查阅文献资料?怎样能够保证对最新论文的追踪?

3、Google Scholar、ResearchGate的使用方法

4、应该去哪些地方查找与论文配套的数据和代码?

5、文献管理工具的使用(Endnote、Zotero等)

6、当代码出现错误时,应该如何高效率解决?

7、实操练习

1、SCI不同分区的论文差别在哪些地方?你知道你的论文为什么显得很单薄吗?

2、从审稿人的角度看,SCI期刊论文需要具备哪些要素?(审稿人关注的点有哪些?如何回应审稿人提出的意见?)

3、如何提炼与挖掘创新点?(如果在算法层面上难以做出原创性的工作,如何结合自己的实际问题提炼与挖掘创新点?)

4、相关学习资料分享与拷贝(图书推荐、在线课程推荐等)

5、建立微信群,便于后期的讨论与答疑

6、答疑讨论(提前把问题准备好)

猜你喜欢

转载自blog.csdn.net/weixin_46433038/article/details/132054662