[01] thinking on how to make themselves like to play king of glory, like crazy, rock music annals of learning?

 

I thought this is the introduction of the first one, inspired by another blogger. After the finished video will then update algorithm series of columns ~


 

We played king of glory, what is for what

 

For non-professional players, playing king of glory, and for what? The common factor is removed spare time, turned down the other side to Crystal? 5 or get killed? Or just to with friends, enjoy the feeling in the game fun to pour skills?

These are not the essence of reason, a single winner, 5 or kill, and not prompted us to continue to open the next game. In essence, we have the pleasure of the game, the game is a reward for the brain feedback mechanism, it is determined by us dopamine.

People often think that dopamine is equivalent to pleasure, but it is not. Dopamine (dopamine) in the pituitary gland just a precursor substance, it is not a pleasure in itself, but expectations of pleasure, or the pursuit of pleasure. When you win, kill or get your adrenaline, oxytocin and endorphin secretion, you will feel joy, excitement, when you were slain, crystal pushed, you will feel frustrated, angry. But for the brain, these are only temporary emotional experience, electrical synapses on a touch away, do not take the slightest cloud. The dopamine signal mechanism posed, then the decision is you will not play it, and the key to the game's future will open.

In other words, dopamine gives you addicted to the game of desire. In the dopamine signaling mechanism, which does not make you feel "glory of the King I play so cool", but makes you think, "I can turn to this", "under the sure win" "I win another one qualifying Dan will rise up. "

Also due to a direct effect of dopamine in the brain's reward circuits, so that even if a person disgusted about something, will go on doing it in the role of dopamine. So, once again, we open the phone or computer, opening the game, entered the qualifying, again and again.

This is the fundamental reason we play king of glory.


 

The feedback loop

The feedback loop is a "signal - Action - feedback" mechanism, it can be simply described as a five-tuple system

Environmental - your interactive environment, such as games

· State - the state you are in, such as kill, has been killed, and victory

• Action - open the game, the game character operation, or turn off the game

· Update - to increase or decrease the probability of you to make some action. Probability - can be understood as the strength of brain signals

· Award - winning pleasure, the pleasure that is expected

And meet the following four rules:

  1. 当你进入游戏,你会以不同的概率,在每一个时间点上,做出不同的动作

  2. 你的动作决定了下一刻你所处的状态,每个状态都对应一个奖励,也即大脑所获得的反馈

  3. 每一步动作,都不只影响下一步的反馈,也可能影响更远的状态和反馈

  4. 反馈可以为正,也可以为负

举个例子,作为一个刚玩MOBA类游戏的玩家,你只知道要推掉敌方水晶。当你进入游戏(环境),你孤身进入敌方防御塔范围(动作),被击杀(状态),你的大脑感觉失望(奖励)。于是,当你从泉水复活(环境),你孤身进塔的动作概率被降低(更新),你选择跟随兵线一起进入(动作),推掉了防御塔(状态转移),并在数十个类似动作后,最终胜利(更远状态),你获得了满足(奖励)。

根据奖励结果,大脑判断第二种路径更好,因此下一次循环,你选择跟随兵线的概率会继续增加,并随之做出更多正确操作,最终加强这个正向反馈回路的效果。这,也是职业选手得以脱颖而出的原因——他们的反馈机制更为迅速,且响应更快。


 

强化学习

 

这个反馈回路,就是构成人工智能中强化学习理论的基础机制。强化(reinforcement),是指在不断尝试中,个体所学习到的反馈回路在不断更新,并最终优化到可能目标的过程。

它和监督式机器学习一样,是构成人工智能的基石。

监督式机器学习,就好比你做历年真题,它由往年题目(旧数据)和答案(标签)构成,通过做题,你获得了从题目和答案中学习到的解题方法,并将这种方法应用到下一次考试中去。本质上,它学习出的是问题和答案之间的关系,这种关系就是模型。机器学习,只是把我们在过去学习中所做了十几年的事情,复制到了计算机上。

而强化学习,学到的是反馈回路。反馈 (reward),即用来判断这个行为是好是坏。一个优秀的强化学习系统,甚至不需要旧有的数据,就可以直接进行学习。

强化学习的反馈有延时,即有可能走了很多步以后,才知道以前的某一步的选择是好还是坏,而监督式机器学习只学习方法,不考虑时间。这样的思考方式其实并不与现实相似,因为我们所做的每个选择,所处的每个环境,都与过去的许多行为有关,它们极其复杂,没有一个固定、线性的模式可被学习,但通过强化学习,可以尽量逼近可能存在的完美模型。

从生物学的角度讲,强化学习更符合人类的进化方式,从古代的尼安德特人就已经开始:不符合正反馈回路的行为或族群,注定被“环境”所“更新”,也意味着淘汰。人类之所以进化成人类,是因为除了总结旧有知识并发现规律(机器学习)外,还会不断尝试和探索(强化学习)。

 

现如今,最完善的强化学习系统,就是谷歌的AlphaGo。每日与自己对弈数十万局,根据对弈结果,强化棋盘落子的正反馈回路。如果说,监督式机器学习是一种方法迁移,那强化学习则是方法探索。在某种意义上,强化学习更接近想象中的人工智能。

现在,让我们回到问题中来。

学习,究竟是为了什么?

不打游戏,是为了更好的学习。更好的学习,是为了更好的生活。那,什么是更好的生活?可以痛快地玩游戏,算不算更好的生活?我们从小被教导要好好学习,却从来没有真正思考过为什么要好好学习。如果连成因、机制都不了解,看再多的思维教学、学习导论,也没有办法让自己真正地执行“好好学习”这件事。

让我们思考一个问题:

“我们真的厌恶学习吗?”

 

其实,用强化学习的角度看,学习和玩王者,本质上没有区别。

学习是一个枯燥的过程,你要背单词、背公式,要写作、还要练习。玩游戏也是如此:你要记忆每个英雄的技能、走位技巧、出装顺序,也要通过很多次的对局来练习、提高技能。

区别在哪里?在学习系统中,它们都是同一种东西,即“动作”,动作无所谓枯燥和有趣,关键看它所处的“状态”和预期的“奖励”。

人类厌恶枯燥的东西,所以当学习变得索然无味,我们就会讨厌学习,这是天性。我们在学习时,并不能获得和做爱一样的快感,否则的话,没有人会讨厌学习。但是,有的人却能坚持学习并乐在其中,为什么?答案是反馈机制。

当学习的“动作”带给人的长期收益为正,就会获得我们所说的快感预期,也即前文提到的多巴胺。如果不靠多巴胺,只靠意志力去坚持学习,会怎么样呢?就像不断绷紧一根弦,强行违背身体的感觉,到最后早晚会断掉。

我们绝大多数人,没有移山填海的毅力,因此这样的学习方式,是不科学的。大脑发出指令的动机其实和海洋馆的海豹一样,是为了眼前那一条小鱼干,顶一次球,给一条鱼,再顶一次,再给一次。也就是说,只有不断收到正向的反馈,才会自然而然地保持前进的动力。

本质上,这只是把“学习”动作的反馈回路,搬到了游戏上来。搞清楚这点,我们就可以思考,如何让自己像打王者荣耀一样的学习

 


 

反馈强化

 

先让我们回到游戏本身。游戏带给玩家的反馈是否足够,是决定一个游戏是否有趣的基础。而游戏厂商在做的事情,就是将反馈回路,竭尽所能的加强和加快,也即提高动作的收益,比如推掉水晶,你获得的不只是胜利,游戏分数也会提升。或者增加不确定性,让玩家耗费更多次的尝试,来确定反馈回路,比如部分皮肤的随机性。

简单来说,常见的游戏,都是基于以下三种强化模式,来对游戏结果的反馈机制进行加强:

  • 一种是“固定比率强化”(Fixed Ratio),比如“打败10个哥布林一定可以升1级”,“连胜10场一定可以升段”

  • 一种是“固定时距强化”(Fixed Interval),比如“《皇室战争》里的白银宝箱3小时后一定可以解锁”

  • 还有一种“不固定比率强化”(Variable Ratio),也就是“《阴阳师》每抽一次卡,有1%的几率抽到SSR”

这三种方法,将强化学习中的不确定性奖励,固化成为确定性收益,比如分数、卡牌、等级。

分别为游戏厂商带来了留存率,在线人数,和净收入。

 


 

我们该怎么做?

 

学霸和学渣的区别,就在于对快感的预期不同。预期不同,形成的反馈也就不同。成为学霸,需要不断强化自己的反馈回路。最基本的,从以下三点做起

1. 缩短反馈周期

反馈周期太长,意味着半衰期长。半衰期是什么,下期文章我会讲。这里只需要知道,反馈周期太长是大多数人无法坚持的主要障碍。举个例子,有的人高中时成绩很好,为何到大学时成绩就一落千丈?有人说,是因为高考之后人松懈了,就容易变笨。很可惜,这个说法或许有道理,却并没有研究结论支撑。真正的原因,其实是反馈周期变长了。

在高中时,一个月会有3-4次测试,你努力学习一个周,就能看到努力的效果,班级名次很容易进步。接着,同学吃惊,家长老师表扬,你觉得特别很开心,打了鸡血一样继续学习,这种感觉可能会持续几天,还没等它消退,下一次考试又来了。不出意外,你会接着获得下一次正反馈。在这样的反馈回路中,“动作”带来的“奖励”被极大加速,整个系统变得完全正向。

上了大学以后,认真学习一个学期,才能有一个好的GPA,这个反馈周期变长了几倍,而且也很少有人因为GPA受到表扬,因此,大多数人坚持不来。取而代之的,很多人习惯考试前1个周开始执行“学习”动作,因为只需要1个周就可以获得相当可观“奖励”,比如及格。所以,想办法减少你的反馈周期,比如,将大目标分解为小目标,会更容易获得成就感。

 

2. 增加反馈强化

我们提到过三种反馈强化模式,那么把“游戏”替换成“学习”,我们要做的是什么呢?可以是考试累计进步10名就请自己吃烧烤,也可以是隔壁班的小爱刮目相看的“SSR”,又或是再看3小时书就去打王者荣耀。

对应到游戏厂商的三种收益上来,就是提高学习留存率,延长学习时间,增加学习收益。

 

3. 调整反馈难度

斯坦福大学行为科学研究人员曾发表过一篇论文,大意是玩家在高难度游戏获胜的那一刻,大脑多巴胺回路会异常激活。也就是说,适当的高难度游戏,能够最大化地激活反馈回路。这也是各大竞技类游戏排位赛机制的由来,通过匹配不同难度的对手,即不会让你一直输下去,也不会让你永远赢。它们塑造一种“升段”“掉段”的奖励机制,让你的反馈回路一直处于半激活状态。

During the study, how to set the difficulty, need to be developed according to individual circumstances, for example, the next test by 10 points, and became the first class, that is, two different difficulty. Difficulty can be progressive, neither too easy nor too difficult.

Once the brain forms a positive feedback loop mechanism, so once tasted the sweetness, Shisuizhiwei, your motivation will be more abundant, over time, will even learn to enjoy this thing in itself, like the king, like playing rock music blog general learning, eventually falls in love Learn. This is the birth of the rule of tyrants learn.

About feedback mechanisms, in fact there are many things you can say, specific learning methods far more than that, there is something called "heart flow" of things, is a tool to enhance learning ability. But because of the time, I do not want to write the article too long. More learning and reinforcement learning knowledge, welcome attention to my next article.

After the article will be made into a video made in the B station, and thank you for reading ~

 

 

Guess you like

Origin www.cnblogs.com/y1ran/p/12155728.html