一只菜鸡的KNN入门 - 代码天地

一只菜鸡的KNN入门

企业开发 2018-07-25 05:09:53 阅读次数: 0

1、算法核心理论：

欧式距离计算公式 : $d = \sqrt{(xA - xB)^{}2 + (xA_{1} - xB_{1})^{2}}$ ，计算测试样本与训练样本之间的距离，维度越多，根号下的算式越多。

def classify0(testsamp,trainsamp,labels,K):
    trainsize = trainsamp.shape[0]
    diff = tile(testsamp,(trainsize,1)) - trainsamp
    sqdiff = diff ** 2
    sum = sqdiff.sum(1)
    distance = sum ** 0.5
    sortdistance = distance.argsort()# 根据值大小排序，返回值对应索引，方便下一步提取marks
    classmarks = {}
    for i in range(k):
        marks = labels[sortdistance[i]]
# dict.get(x1,x2)函数，当x1键存在，获取x1的value，否则取x2；此处，若marks之前出现过，则取对应值，实现频次累加，若无，取0，进行累加
        classmarks[marks] = classmarks.get(marks,0) + 1 
        sortclassm = sorted(classmarks.items(),key=operator.itemgetter(1),reverse=True)
    return sortclassm[0][0]

以上算法选取前K个最小值，并按照频次进行从大到小排序，取频次最高值对应标签，即为测试数据对应类别。

若数据集中部分维度值过大，且实际业务中此维度值与其他维度重要性同等，则会造成距离计算偏差，故需要进行归一化操作：

# 归一化操作

def transNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normSet = zeros(dataSet.shape)
    m = dataSet.shape[0]
    normSet = dataSet - tile(minVals,(m,1)) / tile(ranges,(m,1))
    return nromSet, ranges, minVals

4、顺便记录一下文本解析到列表，生成数据集和标签：

def fileParse(filename):
    with open(filename) as fl:
        lines = fl.readlines()
        normSet = zeros((len(lines),k))
        labels = []
        index = 0 #用于生成新数据集
        for line in lines():
            newline = line.strip()
            normline = newline.split('\t')
            normSet[index,:] = normline[0:3]
            labels.append(int(normline[-1]))
            index += 1
        return normSet, labels

5、KNN算法优点在于精确度高，对异常值不敏感，无数据输入假定，但缺点同样明显，若数据集及维度均较大，则计算量过大，无法给出数据集的典型样本和平均特征。

猜你喜欢

转载自blog.csdn.net/Oldog_1991/article/details/81185066

一只菜鸡的KNN入门

一只菜鸡的决策树入门（二）

一只菜鸡的半年技术博客之路

[一只菜鸡][是条咸鱼][智障日常]

一只找不到工作的大四的菜鸡的菜鸡背景

一只鸡的情怀与梦想

来自一只菜狗的介绍

一只兔子帮你理解 kNN

菜鸡的入门史

百钱百鸡公鸡5文钱一只，母鸡3文钱一只，小鸡3只一文钱

一只猫

一只小狗

我用2D绘图API画了一只好丑的鸡

中证红利指数基金，弱鸡一只？干货篇！

如何申请博士----一只科研弱鸡的上岸之路

图论专项菜鸡入门(一)：图的储存结构

HDU 2044一只小蜜蜂【dp入门】

for循环实现百钱买百鸡的问题：公鸡5元一只，母鸡3元一只，小鸡1元3只，100元要买100只鸡？有多少买法？

有一个人有一百块钱, 打算买一百只鸡, 现在大鸡三块钱一只, 小鸡一块钱三只, 不大不小的鸡两块钱一只. Java编程实现，刚好用一百块钱买一百只鸡.

C语言和python实现——公鸡5文钱一只，母鸡3文钱一只，小鸡3只一文钱，用100文钱买100只鸡

数字时代，你想成为一只“弱鸡”，还是一个“超级个体”？

随笔 - 一只白

一只萌新

一只爬虫的旅途

一只孤独的船

PWN菜鸡入门之CANARY探究

“百钱买百鸡”的问题，题的意思是这样的，5文钱可以买一只公鸡，3文钱可以买一只母鸡，1文钱可以买3只雏鸡，现在用100文钱买100只鸡，鸡各有几只？

C#用一百元买一百只鸡，公鸡5元一只，母鸡3元一只，小鸡1元三只保。证总共花了100元，遍历所有能买鸡的情况，求买鸡数为100的情况案例

写给新手，从不懂到入门，一只老鸟的嵌入式入门心得

用JS的for循环解决一百个铜钱买了一百只鸡，其中公鸡一只5钱、母鸡一只3钱，小鸡一钱3只，问一百只鸡中公鸡、母鸡、小鸡各多少？

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)