22.机器学习 - 代码天地

22.机器学习

其他 2018-10-19 07:22:24 阅读次数: 0

22.机器学习

day01（特征：抽取<值化>，预处理，降维）

主成分分析pca的原理没有学习看这个连接【需要了解】

交叉表【需要了解】

概念

监督学习：有特征值和目标值
- 聚类
无监督学习：有特征值无目标值
- 离散【区间内不可分】：分类
- 连续【区间内可分】：回归

day02

数据集划分

训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效

在sklearn中，估计器(estimator)是一个重要的角色，分类器和回归器都属于estimator，是一类实现了算法的API

1、用于分类的估计器：
- sklearn.neighbors k-近邻算法
- sklearn.naive_bayes 贝叶斯
- sklearn.linear_model.LogisticRegression 逻辑回归
2、用于回归的估计器：
- sklearn.linear_model.LinearRegression 线性回归
- sklearn.linear_model.Ridge 岭回归

sklearn.neighbors k-近邻算法

需要标准化，要调参数k
k值取很小：容易受异常点影响
k值取很大：容易受最近数据太多导致比例变化
优点：
简单，易于理解，易于实现，无需估计参数，无需训练
缺点：
懒惰算法，对测试样本分类时的计算量大，内存开销大
必须指定K值，K值选择不当则分类精度不能保证

朴素贝叶斯

优点：不用调参数，
缺点：特征独立，依赖训练集的精度和数量
【遗留问题】：不知道小数在贝叶斯公式里怎么计算

评价标准

准确率（有没有错）
召回率（有没有查全，务必不可放过）
精确率（查出来的有几个是真的）
交叉验证和网格搜索GridSearchCV
- 传入估计器，超参数，几折交叉数

决策树和随机森林

信息论
- 熵：用来描述属性的不纯度（不确定性）
- 熵的理解
- 熵就是信息量的数学期望；条件熵就是在新条件下熵（本质也是信息量的）的数学期望；两熵之差就是信息增益（决策树的分类依据之一）；
决策树就是按照特征信息增益的大小顺序进行决策；
- 决策树在训练集表现的非常好，在测试集不行称为过拟合
随机森林参数（集成学习方法，选择多个模型一起评估）
- 决策树数量，树的深度，特征选择
- 不需要降维
- 决策树解决过拟合（区别离散和连续数据的过拟合解决方法）：随机森林、删叶子节点

开始迭代算法：回归，神经网络

回归：采用最小二乘法的测量（损失函数的建立，评估预测和真实的偏差）
- 使用函数推导or梯度下降对损失函数的参数求解
- 需要标准化<特征值和目标值要分别标准化，因为大家的方差不一样>（k-近邻也需要）
- 性能评估（metric模块）：均方误差
回归选择方式的区别
- 函数推导：样本大了消耗性能，适用性小（无法解决过拟合问题）
- 梯度下降：需要选择学习率，适用性大；迭代收敛
了解欠拟合（underfitting）与过拟合（overfitting）
- 过拟合：学习了训练集里的局部特征，而不是一般特征，学的特征太多了；
  - 识别方式：通过交叉验证，结果是训练集表现好，测试集表现差
  - 解决方法：去噪
- 欠拟合：学的特征太少了；
  - 识别方式：通过交叉验证，结果是训练集和测试集表现都不好
  - 解决方法：增加特征

正则化

特征选择：过滤式（低方差特征），包裹式，嵌入式
嵌入式包含正则化、神经网络和决策树（选择重要的特征）
正则化（解决过拟合）：普通的线性回归容易出现过拟合，是因为先把所有的数据都拟合进去。正则化就是减少复杂关系的特征的权重
可以采用Ridge回归（正则化的方式）：尝试让某些特征的权重变小，适用病态数据较多的情况
- 超参数：正则化力度（越大权重就越小，模型越简单）、回归系数

###day03 逻辑回归、

逻辑回归（解决二分类问题）

可以得到概率值
输入和线性回归一样，也会有过拟合问题
采用罗杰斯特（sigmoid）函数把值转化到0-1之间{可以映射概率}；分类的时候可以把＜0.5的视为0，反之为1
在线性回归模块下的逻辑回归模块
逻辑回归处理二分类问题，一般定概率小得来计算
需要标准化（已经sigmode了），目标值不用标准化（是分类问题）
正则化 L2，正则化力度C
迭代收敛

生成模型（需要先验概率比如朴素贝叶斯）和判别模型

聚类

聚类做在分类前，方便分类
聚类评估标准：外部距离大，内部距离小；
轮廓系数：（外部距离-内部距离）/max（外部距离，内部距离）[-1,1]
迭代收敛；
针对局部最优，可以多次的方式处理

猜你喜欢

转载自blog.csdn.net/hukou6335490/article/details/82955447

22.机器学习

22. 概率与统计 - 贝叶斯统计&机器学习分类指标

ElasticSearch 6.x 学习笔记：22.桶聚合

树莓派学习 22. USB摄像头使用

JAVA学习22.文件的操作（代码示例）

22.熔断器学习,控制最大并发数目

NOIP学习之循环控制:22.与7无关的数

java学习之路：22.数字格式化

【youcans 的 OpenCV 学习课】22. Haar 级联分类器

22. Generate Parentheses

22. 轻松打车

22.平面列表

22.变基

22.网络编程

22.储存过程

22. 括号生成

22. Generate Parenthese

22. 打包礼物

22.生成括号

22.括号生成

22. loacte命令

22. 接口文档

22.内置函数

22.字符？正则？

22. Generate Parentheses**

22.【动态代理】

22.创建对象

22.用户分组

22. Generate Parentheses(回溯)

22.非阻塞connect

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)