Zequn Sun et al. IJCAI 2018.
相关知识介绍
实体对齐(entity alignment)也被称为实体匹配(entity matching),主要用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。
Bootstrap是一种统计学上的估计方法,由Stanford统计学的教授Bradley Efron提出。Bootstrap是一类非参数Monte Carlo方法,其实质是对观测信息进行再抽样 ,进而对总体的分布特性进行统计推断。
个人想法:Bootstrap只是通过多次重抽样对已有样本进行了最大程度的利用,并没有额外增加样本。因为样本有限,抽样次数在足够多的情况下,Bootstrap可以最大程度地估计出当前样本的统计特性。
论文背景
知识图谱(Knowledge Graph,KG)在AI的众多领域中广泛应用,如问答(question answering)、语义搜索(semantic searching)和知识推理(knowledge reasoning)等。知识图谱中知识一般以三元组(h,r,t)的形式表示,其中h表示头实体(head entity),r表示关系(relation),t表示尾实体(tail entity)。为更好地捕捉知识图谱中的隐藏语义,将知识图谱中的元素(如实体、关系等)用低维的向量(embedding)表示。
单一的知识图谱很难满足多元知识的需要,一种有效的方式是通过实体对齐(entity alignment)将多种知识图谱的异构知识集成起来。但有限的训练数据会使得embedding不准确,实体对齐的精确度不高。因此本文提出了一个基于Bootstrap的实体对齐技术。
问题定义
实体对齐的目标是找到集合
A
=
(
x
,
y
)
∈
X
×
Y
∣
X
∼
R
Y
A = {(x,y)\in X\times Y|X\sim_RY}
A = ( x , y ) ∈ X × Y ∣ X ∼ R Y ,其中
X
X
X 表示
K
G
1
KG_1
K G 1 的实体集,
Y
Y
Y 表示
K
G
2
KG_2
K G 2 的实体集,
∼
R
\sim_R
∼ R 是等价关系。
X
′
X^{'}
X ′ 和
Y
′
Y^{'}
Y ′ 是已有的训练集。
本文将实体对齐转换成分类问题,即用
Y
Y
Y 的实体给
X
X
X 的实体打标签,对应概率定义为
π
(
y
∣
x
;
θ
)
=
σ
(
s
i
m
(
v
⃗
(
x
)
,
v
⃗
(
y
)
)
)
,
\pi(y|x;\theta) = \sigma(sim(\vec{v}(x), \vec{v}(y))),
π ( y ∣ x ; θ ) = σ ( s i m ( v
( x ) , v
( y ) ) ) , 其中,
σ
(
⋅
)
\sigma(\cdot)
σ ( ⋅ ) 是sigmoid函数,
s
i
m
(
⋅
)
sim(\cdot)
s i m ( ⋅ ) 是余弦相似度度量,
θ
\theta
θ 是
K
G
1
KG_1
K G 1 和
K
G
2
KG_2
K G 2 的embedding参数。最终,本文的最大似然优化目标为
θ
^
=
arg
max
θ
∑
x
∈
X
log
π
(
L
x
∣
x
;
θ
)
=
arg
max
θ
∑
x
∈
X
∑
y
∈
Y
1
[
y
=
L
x
]
log
π
(
y
∣
x
;
θ
)
,
\hat{\theta} = {\arg \max}_{\theta}\sum_{x\in X}\log \pi(L_x|x;\theta) = {\arg \max}_{\theta}\sum_{x\in X}\sum_{y\in Y} \mathbf{1}_{[y=L_x]}\log \pi(y|x;\theta),
θ ^ = arg max θ x ∈ X ∑ log π ( L x ∣ x ; θ ) = arg max θ x ∈ X ∑ y ∈ Y ∑ 1 [ y = L x ] log π ( y ∣ x ; θ ) , 其中
L
x
L_x
L x 表示实体
x
x
x 的真实标签,
1
[
⋅
]
\mathbf{1}_{[\cdot]}
1 [ ⋅ ] 是示性函数。
扫描二维码关注公众号,回复:
5531685 查看本文章
主要方法
首先 ,考虑到正负样本的训练问题,使用了限制损失的embedding目标函数:
O
e
=
∑
τ
∈
T
+
[
f
(
τ
)
−
γ
1
]
+
+
μ
1
∑
τ
′
∈
T
−
[
γ
2
−
f
(
τ
′
)
]
+
.
O_e = \sum_{\tau \in T^+}[f(\tau) - \gamma_1]_+ + \mu_1\sum_{\tau^{'} \in T^-}[\gamma_2 - f(\tau^{'})]_+.
O e = τ ∈ T + ∑ [ f ( τ ) − γ 1 ] + + μ 1 τ ′ ∈ T − ∑ [ γ 2 − f ( τ ′ ) ] + . 其中
f
(
⋅
)
f(\cdot)
f ( ⋅ ) 是score function,度量三元组的合理性(plausibility),
[
⋅
]
+
=
m
a
x
(
⋅
,
0
)
[\cdot]_{+} =max(\cdot,0)
[ ⋅ ] + = m a x ( ⋅ , 0 ) ,
γ
1
.
γ
2
>
0
\gamma_1.\gamma_2>0
γ 1 . γ 2 > 0 和
μ
1
\mu_1
μ 1 是超参数,
T
+
T^+
T + 是正样本,
T
−
T^{-}
T − 是负样本。并且,使用
ϵ
\epsilon
ϵ 去除负样本生成,即从当前样本的最近
s
=
⌈
(
1
−
ϵ
)
N
⌉
s=\lceil(1-\epsilon)N\rceil
s = ⌈ ( 1 − ϵ ) N ⌉ 个样本中挑选负样本,使负样本更难从正样本中分别出。其中
ϵ
∈
[
0
,
1
]
\epsilon \in[0,1]
ϵ ∈ [ 0 , 1 ] 是比例,
N
N
N 是知识图谱中样本的总数目,
⌈
⋅
⌉
\lceil\cdot\rceil
⌈ ⋅ ⌉ 是向上取整函数(ceiling function)。
其次 ,考虑到样本不足的问题,并考虑到实体和标签间的一一对应,在第
t
t
t 轮迭代标签对应使用如下的损失函数
max
∑
x
∈
X
′
∑
y
∈
Y
′
x
π
(
y
∣
x
;
θ
(
t
)
⋅
ψ
(
t
)
(
x
,
y
)
)
,
s
.
t
.
∑
x
∈
X
′
ψ
(
t
)
(
x
′
,
y
)
)
≤
1
,
∑
y
∈
Y
′
x
ψ
(
t
)
(
x
,
y
′
)
)
≤
1
,
∀
x
,
y
.
\max \sum_{x\in X^{'}}\sum_{y \in {Y^{'}x}}\pi(y|x;\theta^{(t)}\cdot\psi^{(t)}(x,y)), \quad s.t. \sum_{x\in X^{'}}\psi^{(t)}(x^{'},y))\leq1,\sum_{y \in {Y^{'}x}}\psi^{(t)}(x,y^{'}))\leq1, \forall x,y.
max x ∈ X ′ ∑ y ∈ Y ′ x ∑ π ( y ∣ x ; θ ( t ) ⋅ ψ ( t ) ( x , y ) ) , s . t . x ∈ X ′ ∑ ψ ( t ) ( x ′ , y ) ) ≤ 1 , y ∈ Y ′ x ∑ ψ ( t ) ( x , y ′ ) ) ≤ 1 , ∀ x , y . 其中
Y
′
x
=
y
∣
y
∈
Y
′
and
π
(
y
∣
x
;
θ
(
t
)
)
>
γ
3
Y^{'}x={y|y\in Y^{'} \text{ and } \pi(y|x;\theta^{(t)}) > \gamma_3}
Y ′ x = y ∣ y ∈ Y ′ and π ( y ∣ x ; θ ( t ) ) > γ 3 是
x
x
x 的候选标签,
ψ
(
t
)
(
x
,
y
)
\psi^{(t)}(x,y)
ψ ( t ) ( x , y ) 是需求解的预测函数。
ψ
(
t
)
(
x
,
y
)
=
1
\psi^{(t)}(x,y)=1
ψ ( t ) ( x , y ) = 1 当前仅当在
t
t
t 轮时,
y
y
y 是
x
x
x 的标签,其它时候取0。并且,综合考虑标签样本和未标签样本,得到新的对齐目标函数为
O
a
=
−
∑
x
∈
X
∑
y
∈
Y
ϕ
x
(
y
)
log
π
(
y
∣
x
;
θ
)
.
O_a = -\sum_{x\in X}\sum_{y \in Y}\phi_x(y)\log\pi(y|x;\theta).
O a = − x ∈ X ∑ y ∈ Y ∑ ϕ x ( y ) log π ( y ∣ x ; θ ) . 其中当
x
x
x 有标签时,
ϕ
(
x
)
=
1
[
y
=
L
x
]
\phi(x)=\mathbf{1}_{[y=L_x]}
ϕ ( x ) = 1 [ y = L x ] ;当
x
x
x 无标签时,
ϕ
(
x
)
=
1
∣
Y
′
∣
\phi(x) = \frac{1}{|Y^{'}|}
ϕ ( x ) = ∣ Y ′ ∣ 1 。
最后 ,不仅需要捕获对齐似然,而且需要对知识图谱的语义建模,得到下面的综合目标函数:
O
=
O
e
+
μ
2
⋅
O
a
,
O = O_e + \mu_2 \cdot O_a,
O = O e + μ 2 ⋅ O a , 其中
μ
2
\mu_2
μ 2 是一个平衡的超参数。