机器学习实战——使用k近邻算法改进约会网站的配对效果

整个示例总的来说没什么难度,就是先将文本文件进行解析,将文本文件中的数据分割成数据集和标签集

函数如下:

将文本文件解析完成后,我们需要考虑一个问题,就是如果就直接拿这个数据集去训练,由于各个属性的值不一致,数量级差别比较大,而我们又是根据距离的大小来判断类别的

这样自然造成数量级比较大的属性的在最后的结果中影响较大,这不是我们所希望的结果,故我们需要将整个训练集进行归一化之后,再进行训练。归一化函数如下:

归一化化函数之后,即可参与训练了,书中很方便的写了个函数将上述操作都放在了一个函数里,这个函数还是比较好懂的

可能需要注意一下的是,文件datingTestSet里面可能有错误,运行时老是报错,用datingTestSet2这个文件就可以了

猜你喜欢

转载自blog.csdn.net/weixin_39523628/article/details/81183380