几个常用的计算两个概率分布之间距离的方法以及python实现

1. 欧氏距离(Euclidean Distance)

欧氏距离源自欧氏空间中两点间的直线距离，是最常见的一种距离计算方式。计算公式是两个矩阵中对应元素之差的平方和再开方。

python实现：

import numpy as np

x = np.array([[1, 2, 3, 4],[5, 6, 7, 8]])
y = np.array([[5, 6, 7, 8],[1, 2, 3, 4]])

euclidean_distance=np.sqrt(np.sum(np.square(x-y)))

print(euclidean_distance)

2. 曼哈顿距离(Manhattan Distance)

曼哈顿距离又称为“城市街区距离”或者“出租车距离”，由十九世纪的赫尔曼·闵可夫斯基所创词汇，用以计算两个点在标准坐标系上的绝对轴距总和。

上图中蓝色的线是欧氏距离，红色、蓝色和黄色的线是曼哈顿距离。
曼哈顿距离的计算公式是两个矩阵中对应元素差的绝对值之和。

python实现：

import numpy as np

x = np.array([[1, 2, 3, 4],[5, 6, 7, 8]])
y = np.array([[5, 6, 7, 8],[1, 2, 3, 4]])

manhattan_distance=np.sum(np.abs(x-y))

print(manhattan_distance)

3. 标准化欧氏距离 (Standardized Euclidean distance )

标准化欧氏距离是对欧氏距离的改进，将数据各维的分量都归一化到均值和方差相等。标准化欧氏距离也可以看成是一种加权欧氏距离。

python实现：

import numpy as np

x = np.array([[1, 2, 3, 4],[5, 6, 7, 8]])
y = np.array([[5, 6, 7, 8],[1, 2, 3, 4]])

X = np.vstack([x,y])

sk=np.var(X,axis=0,ddof=1)

standardized_euclidean_distance=np.sqrt(((x - y) ** 2 /sk).sum())

print(standardized_euclidean_distance)

4. 余弦距离(Cosine Distance)

几何中，夹角余弦可用来衡量两个向量方向的差异；机器学习中，借用这一概念来衡量样本向量之间的差异。
夹角余弦取值范围为[-1,1]。余弦越大表示两个向量的夹角越小，余弦越小表示两向量的夹角越大。当两个向量的方向重合时余弦取最大值1，当两个向量的方向完全相反余弦取最小值-1。余弦相似度与向量的幅值无关，只与向量的方向相关。

python实现：

import numpy as np

x = np.array([1, 2, 3, 4])
y = np.array([5, 6, 7, 8])

cosine_distance=np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))

print(cosine_distance)

5. 汉明距离(Hamming distance)

两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。

python实现：

import numpy as np

x = np.array([1., 2., 3., 4.])
y = np.array([5., 6., 7., 8.])

x=np.asarray(x,np.int32)
y=np.asarray(y,np.int32)

hamming_distance=np.mean(x!=y)
print(hamming_distance)

6. 交叉熵（cross entropy）

熵描述的是整个系统内部样本之间的一个距离，或者称之为系统内样本分布的集中程度（一致程度）、分散程度、混乱程度（不一致程度）。系统内样本分布越分散(或者说分布越平均)，信息熵就越大。分布越有序（或者说分布越集中），信息熵就越小。

欧氏距离损失经常用在线性回归问题（求解的是连续问题）中，而交叉熵损失经常用在逻辑回归问题（求解的是离散的分类问题）上，用来作为预测值和真实标签值的距离度量。经过卷积操作后，最后一层出来的特征经过softmax函数后会变成一个概率向量（当前输入分别属于N个分类的概率），我们可以看作为是概率分布q, 而真实标签我们可以看作是概率分布p, 因此真实分布p和预测分布q的交叉熵就是我们要求的loss损失值。

python实现：

import numpy as np

x = np.array([1., 2., 3., 4.])
label=np.array([1,0,0,1])

def softmax(x=x):
    return np.exp(x)/np.sum(np.exp(x),axis=0)
loss1=-np.sum(label*np.log(softmax(x)))

print(loss1)

7. 推土机距离（Wasserstein distance、Earth Mover's Distance）

Wasserstein 距离，也叫Earth Mover's Distance，推土机距离，简称EMD，用来表示两个分布的相似程度。

Wasserstein distance 衡量了把数据从分布“移动成”分布时所需要移动的平均距离的最小值（类似于把一堆土从一个形状移动到另一个形状所需要做的功的最小值），即就是Wasserstein距离在最优路径规划下的最小消耗。

Wessertein距离相比KL散度和JS散度的优势在于，即使两个分布的支撑集没有重叠或者重叠非常少，仍然能反映两个分布的远近。而JS散度在此情况下是常量，KL散度可能无意义。

python实现（OpenCV2）

#coding:utf-8
import numpy as np
import cv
#p、q是两个矩阵，第一列表示权值，后面三列表示直方图或数量
p=np.asarray([[0.4,100,40,22],
            [0.3,211,20,2],
            [0.2,32,190,150],
            [0.1,2,100,100]],np.float32)
q=np.array([[0.5,0,0,0],
            [0.3,50,100,80],
            [0.2,255,255,255]],np.float32)
pp=cv.fromarray(p)
qq=cv.fromarray(q)
emd=cv.CalcEMD2(pp,qq,cv.CV_DIST_L2)
print(emd)