【scikit-learn 估计器】距离方法 - 代码天地

【scikit-learn 估计器】距离方法

其他 2018-10-24 10:36:09 阅读次数: 0

版权声明：转载请注明出处！喜欢就关注一下 or 右上角点赞鼓励一下呗^_^ https://blog.csdn.net/ImagineCode/article/details/83018949

估计器主要用于分类任务，主要有两个函数：

fit() : 训练算法。2个参数：训练数据集，类别。
predict() : 预测算法，用以预测测试集类别，返回类别数组。 1个参数：测试集。

邻近算法

对新个体分类时，需要查找训练集，找到与该新个体最相似的个体，然后根据该个体所属类别将新个体归类到该类别下。

例如：当我们要预测三角形类别时，先找到与它最近距离的是三个菱形和一个圆形，但是菱形的数量大于圆形，故预测三角形的类别时菱形。如下图所示：

举例-邻近算法

缺点： 不适合大数据集，且数据特征值呈离散分布。

距离度量

在讲到邻近算法时，我们说到距离。即，当你要对个体分类时，往往需要知道该个体与其他个体之间的距离。下面分别简要介绍三种距离方法。

欧氏距离

欧式距离，是利用勾股定理测量得到的真实距离，即两个特征向量长度平方和的平方根。

缺点： 如果特征值之间存在较大差异时，或者存在稀疏矩阵时，精确度就会明显的降低。

曼哈顿距离

两个特征在标准坐标系中绝对轴距之和。

异常值对曼哈顿距离的影响，小于欧式距离。

但是，如果数据集中某些特征值很大，这些特征会掩盖其他特征间的邻近关系。

余弦距离

指的是特征向量夹角的余弦值。

更适合处理异常值和稀疏数据的问题。

适用于特征向量很多的情况，但其也忽略了向量长度所包含的在某些场景下可能会有用的信息。

所以，距离问题的解决方法的选择，将直接影响到分类的结果。

下一节中，通过我们将讲解如何通过欧式距离进行分类。

猜你喜欢

转载自blog.csdn.net/ImagineCode/article/details/83018949

【scikit-learn 估计器】距离方法

使用scikit-learn 估计器分类

用scikit-learn估计器分类

Python scikit-learn，估计器(评估器)，estimator

2. 用scikit-learn估计器分类

二、用scikit-learn估计器分类

Scikit-learn方法使用总结

scikit-learn选择正确的分类器

[机器学习]Scikit-Learn学习笔记02——Scikit-Learn学习方法

Python数据挖掘入门与实践---使用scikit-learn 估计器分类

结合Scikit-learn介绍几种常用的特征选择方法

scikit-learn中PCA的使用方法

[转载]Scikit-learn介绍几种常用的特征选择方法

python36的 scikit-learn安装方法

Scikit-learn在Python中构建机器学习分类器

keras学习-Scikit-Learn接口包装器

机器学习 Python scikit-learn 中文文档（7）模型选择: 选择合适的估计器及其参数

【Scikit-Learn 中文文档】模型选择：选择估计量及其参数 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

Scikit-Learn学习笔记——高斯混合模型(GMM)应用：分类、密度估计、生成模型

机器学习之PyTorch和Scikit-Learn第3章使用Scikit-Learn的机器学习分类器之旅Part 2

【Scikit-Learn】Scikit-Learn实战

【Iris】【Keras】神经网络分类器和【scikit-learn】逻辑回归分类器的构建

Scikit-Learn的评估器API学习-线性分类器

python数据挖掘入门与实践--------电离层（Ionosphere）, scikit-learn估计器，K近邻分类器，交叉检验，设置参数

机器学习整理结合Scikit-learn介绍几种常用的特征选择方法

scikit-learn决策树算法类库使用小结及可视化方法

DM13---结合Scikit-learn介绍几种常用的特征选择方法

干货：结合Scikit-learn介绍几种常用的特征选择方法

特征工程 - 特征筛选结合Scikit-learn介绍几种常用的特征选择方法

【sklearn第二讲】scikit-learn 方法一览图

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)