机器学习笔记：各种范数及各类距离

各种范数和距离有时记不清楚，简单做个笔记。

为什么把范数和距离写一块呢，因为一些距离就是通过范数定义的。参考《机器学习：算法原理与编程实践》一书。

0. L0范数：指向量x中非0的元素的个数。

1. L1范数：指向量x中各个元素绝对值之和。

2. L2范数：为向量x的各个元素平方和再开方。L2范数又称Euclidean范数或Frobenius范数。

3. 无穷范数：为向量x各个元素绝对值最大的那个元素。

直接定义为

对公式通过极限推导可得结论：

4. Lp范数：为向量x的各个元素绝对值p次方和的1/p次方。

为范数的一般推广，p取0,1,2时即对应L0,L1,L2范数。

1.曼哈顿距离

即城市街区距离，为两点向量差的L1范数。两个n维向量A（x11,x12,...,x1n）和B（x21，x22,...,x2n）间的曼哈顿距离为：

2. 欧氏距离

即两点间的空间距离，为两点向量差的L2范数。两个n维向量A（x11,x12,...,x1n）和B（x21，x22,...,x2n）间的欧氏距离为：

3.切比雪夫距离

即最大的维度内距离，为两点向量差的无穷范数。两个n维向量A（x11,x12,...,x1n）和B（x21，x22,...,x2n）间的切比雪夫距离为：

或另一种等价形式：

4. 闵可夫斯基距离

相对于Lp范数，是一组距离的定义。两个n维向量A（x11,x12,...,x1n）和B（x21，x22,...,x2n）间的闵可夫斯基距离的定义为：

当p=1时，就是曼哈顿距离；

当p=2时，就是欧氏距离；

当p->无穷时，就是切比雪夫距离。

5. 汉明距离

汉明距离定义：两个等长字符串s1和s2之间的汉明距离定义为将其中一个变为另外一个所需要的最小替换次数。

如字符串“1111”与“1001”之间的汉明距离为2。也就是指两个字符串的接近程度。

应用：信息编码（为了增强容错性，应使编码间的最小汉明距离尽可能大）。

6. 杰卡德距离

a.杰卡德相似系数：两个集合A和B的交集在A、B的并集中所占的比例，是衡量两个集合相似度的一种指标，用符号J(A,B)表示。

b.杰卡德距离：为两个集合中不同的元素占所有元素的比例，用来衡量两个集合的区分度。