序列的算法(一·a)马尔可夫模型

序列的世界(一.a)

序言

机器学习领域往往按照算法的应用分为各大领域,如NLP、CV、MT等等,一些算法往往也被打上各自应用的标签,但其实对于算法本身而言,只要你能按照他指定的格式输入数据,就能够产出相应的结果,并不是限定到某个领域,只要你能对问题抽象成算法需要的input,就可以在这个问题上发挥算法的价值。

在这里我们会关注一系列输入是「序列」的算法,这里的序列包括但不限于「文本序列」、「时间序列」、「行为序列」,当然在序列中最被深入研究的当属文本了:大量的样本、符合直觉的概念、丰富的应用场景,都对NLP的繁荣有所助益。在后面的介绍中,大家也能看到很多NLP应用广泛的算法,但,算法才不会管你传入的数据是什么,只要是它需求的格式,它就会帮你发现总结出其中的规律。在实际的使用中,算法是我们手中的一把锤子,但它并不是一把被打上领域标签的锤子,只要你能把你的问题转化成对应的钉子,你就可以使用它。

本系列对算法的讲解都会从两篇部分予以呈现:

a. 湿货部分要浅入浅出,形象生动,读得明白。
b. 干货部分要一文以蔽之,公式罗列,看得通透;


下面是(一)的 a 部分内容


马尔可夫模型

说到序列,除非你是学习文本处理的人,一般大家首先想到的不会是「文本序列」,而是「行为序列」,比如知名笑话中的「吃饭、睡觉、打豆豆」。
此处输入图片的描述
我们在生活中的一系列行为往往被抽象成了一个个行为点,你可以回忆一下你今天做了哪些事情,简单来说大概是诸如「起床,吃早饭,刷微博,刷知乎,收快递,吃午饭」这样的一个序列,当然你可能说「我是同时刷微博和知乎的!」,这只是抽象粒度不同而已,完全可以把「刷微博,刷知乎」总结为一个行为点「浪费时间」嘛。
【刷微博图】

Unigram

如何对这样一个行为序列进行建模呢?最最简单省事的方式就是:上面的每一件事情之间都没啥关系,出现先后只是巧合,你完全可以突然地起床了,然后突然地吃了个早饭,接下来很有可能突然地再起一次床。
此处输入图片的描述
这样的模型在序列里有个专门的名词叫做Unigram,你扔掉了所有序列的先后次序,最后当你需要刻画一个人的行为时,只能得到这样的信息「小明平均每天刷3次微博、小红平均每天吃4顿饭」。
此处输入图片的描述
作为一个资深app用户行为分析师,你的年终报告已经可以这样写了:s
老板一看妙啊!扔给业务部门一个kpi,明年以上数据统统double!!

Unigram这样的建模方式虽然简单,但应用非常非常非常广泛,类似上面这样的年终盘点,其实就是对你行为的Unigram刻画。在文本序列中,统计每个字母的出现次数占比,甚至可以帮你破译比较简单的密码(凯撒密码)。

马尔可夫链

你或许会觉得Unigram方式对你行为的刻画太粗糙了,毕竟谁都知道你得先「上床」、才能有「起床」这个行为嘛;以前发生的行为对以后是有非常大的影响的:你前天上网剁了手,今天才会收到快递;你昨晚手机没充电,今天蹲坑才不知道干什么;你上周买了彩票,今天才会发现没中奖。
【行为影响图】
等等等等,好复杂,我怎么知道一个行为会以怎样的方式影响未来,毕竟蝴蝶的翅膀不是浪得虚名,那一切从简,我们大可这样认为:当前行为只受上一个或几个行为的影响,虽然看起来不太靠谱,但好歹能刻画出「上床睡觉->起床」这样的信息了,毕竟只要人不挂,睡着了还是起得来的。

这里我们已经引入了一个牛逼烘烘的假设:马尔可夫假设,就是上面标黑的那一句话,这样一个序列我们称之为马尔可夫链。一般来说如果当前行为只受上一个的影响,我们称之为一阶马尔可夫链,以此类推。
此处输入图片的描述
图中的每一个箭头都意味着一组参数,是整个模型需要去学习的,此处不细表。

接下来我们就以最简单的一阶马尔可夫链来看看我们能得到什么新东西,作为一个资深的app的用户分析师,你又有了如下结论:
此处输入图片的描述
业务部门一看妙啊!赶紧跟啤酒厂合作去,kpi有望了!

隐马尔可夫模型

这个时候有同学就说了,你这个模型也不太靠谱,我做事情都是看心情的嘛!心情好我就吃两碗饭,说得抽象点,你的外在行为只是你内在意愿的表现.

什么意思呢:你和妹子吃完饭,想看个电影;到底去不去看电影,还是做其他事情呢?还得看妹子的意思。所以从你的心里是想看电影来着的,但最终表现成了逛街(瞎想啥呢),实在是因为「臣妾做不到啊」。

如何刻画这样一个行为模式呢,我们就得在原始序列的基础上,引入「隐变量了」,就是深藏在序列背后的……序列:
此处输入图片的描述
这就是传说中的隐马尔可夫模型了,这里涉及的隐变量是什么,完全由具体的问题而定:比如文本序列中每个单词的词性、语音序列里背后的「音节」、姑娘跟你说「去洗澡了」背后到底是什么意思。
此处输入图片的描述
作为知名app用户分析师的你表示已经从上帝那里购买了用户心理活动查询接口,通过分析有了惊人的发现:
此处输入图片的描述

老板欣然起意,对产品大加修改,走上了快播的不归路。

猜你喜欢

转载自blog.csdn.net/Dark_Scope/article/details/61417336