数学建模与数据分析中的熵权法

熵权法
用于更加客观的权重矩阵的构造,可以将构造完成的矩阵应用于TOPSIS方法中,应当区分与层次分析法的应用

(1) 熵权法的原理与说明

1. 原理

  • 指标的变异程度越小,所反映的信息量也越少,其对应的权值也应该越低。
  • 举个例子:比如在2019世界杯比赛结束之后,在没有看过比赛的前提下,要猜测哪只队伍获得了冠军。如果世界各球队的实力都差不多,那么猜测起来就不是很容易,但是由于德国,巴西等这些国家的实力很强,还有其他一些比较弱的国家,猜测时就可以直接从强实力的国家中猜,猜对需要的时间就会短一些。
  • 在上面的例子中,各国实力相同代表的就是指标的变异程度比较小,而有国家很强,有国家很弱代表的就是指标的变异程度比较大,反映的信息量就比较多,

2. 信息熵的定义

  • 假设 x i    ( i = 1 , 2 , … , n ) x_i~~(i=1,2,\dots,n) xi  (i=1,2,,n) 表示时间 X X X 可能发生的某种情况, p ( x i ) ∈ [ 0 , 1 ] p(x_i)\in [0,1] p(xi)[0,1] 表示这种情况发生的概率,并且有 ∑ i = 1 n p ( x i ) = 1 \displaystyle\sum_{i=1}^np(x_i)=1 i=1np(xi)=1
  • 定义 I ( x i ) = − l n ( p ( x i ) ) I(x_i)=-ln(p(x_i)) I(xi)=ln(p(xi)) ,易知 I ( x i ) ≥ 0 I(x_i)\ge0 I(xi)0
  • 定义事件 X X X 的信息熵为 H ( X ) = ∑ i = 1 n p ( x i ) I ( x i ) = − ∑ i = 1 n p ( x i ) l n ( p ( x i ) ) H(X)=\sum_{i=1}^np(x_i)I(x_i)=-\sum_{i=1}^np(x_i)ln(p(x_i)) H(X)=i=1np(xi)I(xi)=i=1np(xi)ln(p(xi))
  • p ( x 1 ) = p ( x 2 ) = ⋯ = p ( x n ) = 1 n p(x_1)=p(x_2)=\dotsb=p(x_n)=\dfrac{1}{n} p(x1)=p(x2)==p(xn)=n1 时, H ( x ) H(x) H(x) 取最大值 l n ( n ) ln(n) ln(n)

⚠️ 注意信息熵越大信息量越小:当 p ( x 1 ) = p ( x 2 ) = ⋯ = p ( x n ) = 1 n p(x_1)=p(x_2)=\dotsb=p(x_n)=\dfrac{1}{n} p(x1)=p(x2)==p(xn)=n1 时信息熵取最大值,但是就好像例子中各个国家球队的实力相同,反映的信息量反而最小。

(2) 熵权法的计算流程

输入的矩阵有 n n n 个要评价的对象和 m m m 个评价指标(已经完成正向化)
X = [ x 11 x 12 ⋯ x 1 m x 21 x 22 ⋯ x 2 m ⋮ ⋮ ⋱ ⋮ x n 1 x n 2 ⋯ x n m ] X=\left[ \begin{matrix} x_{11}&x_{12}&\dotsb&x_{1m}\\ x_{21}&x_{22}&\dotsb&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\ x_{n1}&x_{n2}&\dotsb&x_{nm} \end{matrix} \right] X=x11x21xn1x12x22xn2x1mx2mxnm

1. 确保矩阵被标准化到非负区间

Z = [ z 11 z 12 ⋯ z 1 m z 21 z 22 ⋯ z 2 m ⋮ ⋮ ⋱ ⋮ z n 1 z n 2 ⋯ z n m ] Z=\left[ \begin{matrix} z_{11}&z_{12}&\dotsb&z_{1m}\\ z_{21}&z_{22}&\dotsb&z_{2m}\\ \vdots&\vdots&\ddots&\vdots\\ z_{n1}&z_{n2}&\dotsb&z_{nm} \end{matrix} \right] Z=z11z21zn1z12z22zn2z1mz2mznm
其中 z i j = x i j ∑ i = 1 n x i j 2 z_{ij}=\dfrac{x_{ij}}{\sqrt{\displaystyle\sum_{i=1}^nx_{ij}^2}} zij=i=1nxij2 xij

如果存在 x i j < 0 x_{ij}<0 xij<0 可以采用 z i j = x i j − m i n   { x 1 j , x 2 j , … , x n j } m a x   { x 1 j , x 2 j , … , x n j } − m i n   { x 1 j , x 2 j , … , x n j } z_{ij}=\dfrac{x_{ij}-min~\{x_{1j},x_{2j},\dots,x_{nj}\}}{max~\{x_{1j},x_{2j},\dots,x_{nj}\}-min~\{x_{1j},x_{2j},\dots,x_{nj}\}} zij=max { x1j,x2j,,xnj}min { x1j,x2j,,xnj}xijmin { x1j,x2j,,xnj}

2. 计算在第 j 项指标下第 i 个样本所占的比重

p i j = z i j ∑ i = 1 n z i j p_{ij}=\dfrac{z_{ij}}{\displaystyle\sum_{i=1}^nz_{ij}} pij=i=1nzijzij
P = [ p 11 p 12 ⋯ p 1 m p 21 p 22 ⋯ p 2 m ⋮ ⋮ ⋱ ⋮ p n 1 p n 2 ⋯ p n m ] P=\left[ \begin{matrix} p_{11}&p_{12}&\dotsb&p_{1m}\\ p_{21}&p_{22}&\dotsb&p_{2m}\\ \vdots&\vdots&\ddots&\vdots\\ p_{n1}&p_{n2}&\dotsb&p_{nm} \end{matrix} \right] P=p11p21pn1p12p22pn2p1mp2mpnm

3. 计算熵权

  • 计算信息熵
    e j = − 1 ln ⁡ n ∑ i = 1 n p i j ln ⁡ ( p i j ) e_j=-\dfrac{1}{\ln n}\sum_{i=1}^np_{ij}\ln (p_{ij}) ej=lnn1i=1npijln(pij)
  • 计算信息效用值
    d j = 1 − e j d_j=1-e_j dj=1ej
  • 计算熵权
    w j = d j ∑ j = 1 n d j w_j=\dfrac{d_j}{\displaystyle\sum_{j=1}^nd_j} wj=j=1ndjdj

猜你喜欢

转载自blog.csdn.net/weixin_44618906/article/details/104240154