Relational Learning Task

24个人表示成24维向量,除了一个,其余都是0

Colin =(1,0,0,0,…,0),Charlotte = (0,0,1,0…,0)

为什么不用更简单的表示呢,比如计算机中的二进制(5维可表示)?

Colin =(0,0,0,0,1), Charlotte = (0,0,0,1,1)

24维表示法使得输入线性可分

24维表示法不需要先验知识

 

样本:一个英国家庭,一个意大利家庭

112个元组:(C122 - 2*C42)*2  (因为Margaret&ArthurAndrew&Christine没有关系)






输入:person1  relationship

输入:与person1有关系relationshipperson2



特点

【不同家庭】:图中右上角,白色方块表示了英国家庭的人,黑色方块表示了意大利家庭的人。

【一代人】:老一代人是很强的正样本,新一代人是很强的负样本,中间的一代的权重接近于0。是三个取值的特征。

【家谱】:左下角,黑色方块,暗示了这些人都属于右边的家谱成员。

 

Background-propagation可以学习到一些有趣的特征。

 

Question:

A RB 给出人A和关系R预测B,与给图片分类有什么不同?




________________________________________________________________________________________


The Softmax Output Function

使神经网络的输出总和为1

可以表示为一些互斥变量的概率分布  (discrete mutually exclusive alternatives)

 

平方误差估计的缺点:

  • 如果希望输出的是1,实际输出0,00000001,那么几乎没有梯度可以更改权重的值,即使已经是最大错误。
  • 如果我们对互斥事件计算概率,那总和应该是1,但是平方误差估计并没有体现。

 

强迫输出和为1——softmax




TIPS:任何分布的变量,加上一个常数C,其分布都不变,因为只是横坐标移动。

 

交叉熵代价函数(cross entropy cost function)


C总有很大的导数


____________________________________________________________________________________________


Speech  Recognition

problem:

噪音

人们的理解 recognizespeech / wreck a nice beach

 

所以语音识别器必须知道下一个出现的单词可能是什么。

'trigram' method

根据一个庞大的词汇数据元组(很多2个词的组合),来预测下一个词的概率是多少


trigrammodel并不理解相似词之间的关系,所以用语义句法的特征向量来预测。

这样每个元组可以拥有更多的前词(e.g:10)



Ways to deal with the largenumber of possible outputs in neuro-probabilistic language models.

如何解决最后一层输出过多?

 

  1. Serial architecture

在上述结构的基础上,添加了候选单词,输出就是候选单词的概率




  1. 将单词构造成一个二叉树

将预测向量与树枝上的向量做比较,决定选择左枝还是右枝





t-SNE

2-D展示学习到的向量




猜你喜欢

转载自blog.csdn.net/ll523587181/article/details/78852765
今日推荐