Hierarchical temporal memory

原文

文章目录

1 多级临时记忆概要

多级临时记忆是一个机器学习技术, 它的目标是捕捉新大脑皮层的结构和算法属性.
新大脑皮层是智能的所在地, 在哺乳动物大脑中. 高层视觉,听觉,触觉,移动,语言,计划都是由新大脑皮层执行的. 给定这样多套认知功能, 你或许期待新大脑皮层实现对等的多套神经算法. 不是这样的情况. 新大脑皮层显示显著的统一的神经电路模式 . 生物证据表明新大脑皮层实现了一个通用算法集以执行多个不同智能功能.
多级临时记忆提供一个理论框架来理解新大脑皮层和它的许多能力. 到目前为止我们已经实现了这个理论框架的一个小子集. 随着时间推移, 越来越多的理论将被实现. 今天我们相信我们已经实现了一个足够的子集, 关于新大脑皮层做了什么, 以具有商用和科研价值.
编程多级临时记忆不像编程传统计算机. 今天的计算机, 程序员创建特定的程序去解决特定问题. 鲜明反差, 训练多级临时记忆通过喂给感官数据流 . 多级临时记忆的能力极大的由数据决定.
多级临时记忆可以被看作一类神经网络. 按照定义, 试图去建模新大脑皮层的架构细节的系统是神经网络. 然而, 术语"神经网络" 不是非常有用 ,因为它被用到各种系统. 多级临时记忆模型的神经元, 在一个hierarchy中, 被组织以列、层、区. 按细节, 多级临时记忆是神经网络的一个新形式.
如名字所暗示 , 多级临时记忆基本上是一个基于记忆的系统. 多级临时记忆网络用许多时变数据训练, 依赖于存储的模式和序列的大集合. 数据存储和访问的方式逻辑地不同于标准模型被今天的程序员所用的. 经典计算机内存是一个平的组织并且没有固有的时间概念. 一个程序员能实现任意种类的数据组织和结构在平计算机内存上. 他们有控制权通过如何、哪信息被存储. 相反, 多级临时记忆是更受约束的. 多级临时记忆有一个 hierarchy 组织 , 且基于固有的时间. 信息总是存储以分布式的样子. 多级临时记忆的用户指定 hierarchy 尺寸, 系统以什么(数据) 训练, 但是多级临时记忆控制信息在哪、怎么存储.
虽然多级临时记忆网络显著的不同于经典计算, (但) 我们能用通用目的计算机 (去) 建模他们 , 只要我们合并关键功能: 分层、时间分布表示、空间分布表示(稍后详叙). 我们相信假以时日, 专用硬件将会被创建去生成想要的多级临时记忆网络.
在这个文档中, 我们经常表示多级临时记忆属性和原则 , 用画的例子从人类视觉、触觉、听觉、语言和行为. 这些例子是有用的, 因为他们是直觉的和容易抓住的. 但是, 它是重要的，心里明白多级临时记忆能力是通用的。他们恰好容易换成非人类感官输入流，比如雷达、红外线、或纯信息输入流像金融市场数据、天气数据、网页流量模式、文本。多级临时记忆是学习并预测机器 , 能应用到多种问题。

- 多级临时记忆原理

在这段，我们覆盖多级临时记忆核心原理的一部分: 为什么 hierarchy 组织是重要的，如何让多级临时记忆区结构化，为什么数据被存储为稀疏分布表示，为什么基于时间信息是至少(要有)的.

- 分层

多级临时记忆网络包含以层次组织的区. 在多级临时记忆中, 区是主单位、预测, 在下一段　　 (区) 将被详细讨论 . 典型地，每个多级临时记忆区表示在 hierarchy 中的一个级别 . 当你向上 hierarchy 走, 总会收敛, 在一个子区中的多个元素收敛到一个父区中的一个元素. 然而，由于反馈连接，信息也发散当你向下 hierarchy 走。（一个区和一个级别几乎是同义词。当叙述一个区的内部功能时，我们用词区；然而当特定地提及在某个 hierarchy 内的某个区的某个角色时，我们用词级别）
组合多个多级临时记忆网络是可以的。这种结构有意义，如果你有数据从多个源或传感器. 例如，一个网络是处理听觉信息，另一个网络是处理视觉信息。每个单独网络是收敛的, 而且分离的分支只收敛到顶.
hierarchy 组织的好处是效率. 它显著地降低了训练时间和内存用量，因为在 hierarchy 中的每个级别学到的模式被重用，当在更高级以新奇的方式组合. 作为例子，让我们考虑视觉. 在 hierarchy 的最低级，你的大脑存储关于比如可视域边、角微小段的信息。一个边是世界上许多物体的基础组建。在中级的这些低级模式被重组合进像曲线、质地的更复杂组件。一条弧可以是耳朵的边，操纵轮的顶端或者咖啡杯的边框. 这些中级模式进一步组合到表示高级目标特征，比如头、车、房子。为了学习新高级目标，你不需要重学它的组件。
另一个例子，考虑当你学一个新字，你不必重学字母、音节、音素。
在一个 hierarchy 中共用表示也导致期待的行为的泛化. 当你看一个新动物，如果你看到一个嘴巴、牙齿，你会预测这个动物用它的牙齿吃，它可能咬你。 hierarchy 启用了一个新目标在世界上去继承它的子组件的已知属性。
在一个多级临时记忆 hierarchy 的一个单级能学到多少？或者换个方式，在 hierarchy 中多少级是必要的？在分配多少内存给每级和需要多少级之间需要平衡。进一步地，多级临时记忆自动学习最可能的表示在每级给定输入统计和资源分配量。如果你分配更多内存给一级，此级将形成更大更复杂的表示，它依次意味着更少的必要 hierarchy 级。如果你分配更少内存，一级将形成更小更简单的表示，它依次意味着更多的必要 hierarchy 级。
到这点，我们正叙述困难问题，比如视觉推理（推理是类似的和模式识别）。但是许多有价值的问题是更简单比视觉，一个但多级临时记忆区可能满足. 例如，我们应用一个多级临时记忆去预测，一个人浏览一个网站，接下来会点击哪里。这个问题涉及喂多级临时记忆网络以网页点击数据。在这个问题中，少有或没有 spatial hierarchy，解几乎 (只) 需要发现 temporal 统计，比如靠识别典型用户模式来预测该用户将点击哪里。在多级临时记忆 (中) 这个 temporal 学习算法对这类问题很理想。
总结下， hierarchies 降低训练时间，降低内存用量，导致一种形式的泛化。但是，用一个单多级临时记忆区 (可以) 解许多简单预测问题。

- 区

记号区，在一个 hierarchy 中用导线连接的，来自生物学。新大脑皮层是一个巨大的组织簿片，大约 2毫米厚。生物学家分新大脑皮层成不同区域或者区，主要基于该区怎么连到其他区。有些区直接接收输入从感官，另一些区接收输入,只在它(该输入) 通过了若干其他区后。区到区的连接性定义了 hierarchy.
全部新大脑皮层区看着类似，在他们的细节上。他们变化，以尺寸 ,以他们在 hierarchy 中的哪，除此之外他们是类似的。如果你取一块薄片,穿透一个新大脑皮层区的 2毫米厚度，你会看到 6 层， 5层细胞,1层非细胞(有一些例外,但这是一般规则(规律))。在一个新大脑皮层的每层有许多内部连接细胞,以列排列。分层临时区域也是片装组装，片是高度内连的细胞，细胞排列在列中。新大脑皮层中的层3 是神经元主前馈层之一。一个多级临时记忆区粗略等于，新大脑皮层一个区中的层3 中的神经元们。
图1.3 : 一个多级临时记忆区的一个段. 多级临时记忆的区们由许多细胞组成。这些细胞在列中以二维形式组织. 这个图显示一个多级临时记忆区的一个小段，每列 4个细胞。在这个区中，每列连接到输入子集，每细胞连接到其他细胞(连接没有显示). 注意这个多级临时记忆区，包含它的圆柱形(列) 结构，等同于在一个新大脑皮层区中的一层神经元.
虽然一个多级临时记忆区是仅仅等同于新大脑皮层中的一份区，它(该区) 能做推理和预测 ,在复杂数据流上,因此 (区是) 有用的在许多问题 (上).

- 稀疏分布表示

虽然新大脑皮层 (中的) 神经元是高度内连的，抑制神经元保证了仅仅一小百分比神经元是激活的 ,在 (任)一个时刻. 因此，大脑中的信息总是被表示, 用一个巨大人口(数目) 神经元中的一小百分比的激活神经元。这种编码叫做稀疏分布表示。稀疏意思是仅仅一小百分比的神经元是激活的 , 在 (任)一个时刻. 分布意思是 , 为了表示某个事物, 需要激活多个神经元. 一个单激活神经元表达某个意思, 但它必须被解释,在表达整个含义(该事物) 的全体神经元的上下文 (中).
多级临时记忆区(们) 也用稀疏分布表示。事实上，在一个多级临时记忆区内的记忆原理(结构)(机制) 依赖于使用稀疏分布表示，否则 (区) 不工作。给一个多级临时记忆区的输入总是一个分布表示，但它可能不是稀疏的，所以一个分布临时记忆区要做的第一件事是转化它的输入到(为)(成) 一个稀疏分布表示.
例如，一个区可以接收 2万 bit 的输入。输入 bit 中 1 、0 的百分比随时间显著变化. 一时刻可能有 5千个 bit 1, 另一时刻可能有 9千个 bit 1。该分册临时记忆可以转化这个输入到一个 1万 bit 的内部表示 , 它(该内部表示) 一次有 2% 即 200个 bit 是激活的，不论这个输入中有多少 bit 1. 因为这个多级临时记忆区的输入随时间变化，内部表示也(随时间) 变化，但是 1万 bit 中总是只有 200 bit 是激活的。
看起来,这个过程产生了信息的巨大丢失,因为可能的输入模式数量远多于在该区中可能的表示数量。然而，这两个数都是巨大的。一个区看到的该实际输入(们) 是全体可能输入中的很小的小部分。稍后我们会叙述一个区如何从它的输入创建一个稀疏表示. 信息的理论上的损失不会有实用效应.
图1.4 一个多级临时记忆区正显示稀疏分布的细胞激活
稀疏分布表示有若干吸引人的属性,而且被集成到多级临时记忆的操作 . 后面还会再讲到.

- 时间角色

时间扮演一个决定性的校色, 在学习、推理、预测中.
让我们从推理开始。不使用时间，我们几乎不能从我们的触觉、听觉推理 (任何东西). 比如，如果你被蒙上眼睛, (然后) 有人方一个苹果在你手上，在你操纵它(苹果) 仅仅 1秒后，你 (就能) 知道它是什么。当你在苹果上移动你的手指，虽然触觉信息不断变化，目标自身 – 苹果，如同你的高层感知 “苹果”, 保持不变。但是，如果一个苹果放在你张开的手掌中, 并且不允许你移动你的手或手指，你会很难分清它是一个苹果还是一个柠檬。
对于听觉也是一样成立。一个静态的声音表达极少的意思。一个字 ,比如苹果,或某人咬一个苹果的咯吱声音，只能被识别出来，从音谱的一打或几百个急流、随时间的连续的变化。
相比之下，视觉，是个混合情况。不像触觉、听觉，人类能识别图像,当他们(图像) 瞬间闪亮(出现) 在他们(人类) 面前, (出现的) 太快以至于没给眼睛机会去移动(译者:没给眼睛移动的机会,因此视觉能力没有利用时变输入). 因此，视觉推理不总是需要时变输入。但是，在正常视觉期间，我们不断移动我们的眼睛、头、身体，并且世界上的目标(物体) 也在我们的周围移动。我们的推理能力,基于快速画面曝光, 是一个特例, 由视觉统计属性和多年训练制造的. 视觉、听觉、触觉的通用情形是基于需要时变输入的推理(译者认为作者这里有点故意往自己的东西上套的嫌疑忽略了解释不了的事实).
刚刚覆盖了推理的通用情况，特殊情况: 静态图像的视觉推理，现在让我们看下学习。为了去学习，在训练期间 , 所有多级临时记忆系统必须面对时变输入 . 即使在视觉上, 静态推理有时是可能的，我们必须看物体(们) 的变化图像 , 去学习一个物体看起像什么。例如，想象一只狗正朝你跑来。在时间上的每一个瞬间 , 这只狗导致了一个激活模式,在你眼睛的视网膜上。你知觉到这些模式是一个相同的狗的不同 view，但是数学地(数学上看) 这些模式是完全地不相似。大脑学到这些不同的模式意味着相同的东西，靠按序列地观察他们 (的方式). 时间是监督者，教你哪些空间模式放在一起。
注意对于感官输入仅仅去改变是不够的。你学会辨别狗(们) , 靠看很多不同品种的狗实例，而不是只有一单个狗的一单个 view。多级临时记忆算法的工作是去学临时序列 , 从一个输入数据流，比如构建一个模型,哪些模式跟在哪些其他模式后面。这个工作是困难的,因为它可能不知道序列的开始、结束，在相同时刻可能有覆盖序列出现，学习必须连续地发生，并且学习必须在噪音存在 (的情形下) 发生 .
学习、识别序列是形成预测的基础。一旦一个多级临时记忆学到什么模式(们) 很可能跟随其他模式(们), 给定当前输入、直接过去输入(们),它(多级临时记忆) 能预测很可能的接下来的模式(们). 稍后会覆盖到预测的更多细节。
我们现在将转向多级临时记忆的四个基本功能：学习、推理、预测、行为。每一个多级临时记忆区执行前三个功能：学习、推理、预测。然而，行为是不同的。从生物学,我们知道新大脑皮层的大多数区(们) 有一个角色,创建行为, 但是对于许多有趣的应用,我们不相信它(行为) 是必需品。因此在我们当前多级临时记忆实现中,我们没包含行为. 这里我们提及它(行为),是出于完整性.

- 学习

一个多级临时记忆区了解它的世界,靠在感官数据中找模式、then 序列。(该)区不知道输入代表什么；它工作,以一个纯粹的统计领域。它(该区) 寻找输入 bits 的组合, 经常出现在一起的,(该组合) 我们称之为空间模式(们)。然后，它(该区) 寻找这些空间模式(们) 怎么出现,按时刻序列, (该时刻序列) 我们称之为临时模式(们) 或序列(们)。
如果到 (该)区的输入表示在一个建筑物 (中的) 环境传感器(们)，(该)区可能会发现温度、湿度的特定组合(们),在 (该)建筑物北边经常出现,而且在 (该)建筑物南边出现不同的组合。然后,随着每天流逝, 它(该区) 可能学到这些组合(们) 的序列(们) .
如果到一个区的输入表示在一个店内的跟购买(们) 相关的信息，多级临时记忆的 (该)区可能发现,在周末特定类型(们) 的物品(们) 被购买，或者当天气冷了,在晚上,特定价格范围(们) 被偏爱。然后它(该区) 学到不同的个人跟随相似的序列模式(们),在他们的购买中。
一个单多级临时记忆区有受限的学习能力。一个区自动地调整它(该区) 学什么,基于它(该区) 有多少内存,它(该区) 收到的输入的复杂度。被一个区学到的该空间模式(们) 会必然地变的更简单,如果分配给一个区的内存被降低. 或者学到的空间模式(们) 可以变得更复杂,如果分配的内存被增加了。在一个区, 如果学到的空间模式(们) 是简单的,那么区(们) 的 (一个) hierarchy 可能需要区理解复杂图像(们)。我们看到这个特性,在人类视觉系统中,新大脑皮层区接收输入从视网膜,(区) 学到可视空间的小部分(们) 的空间模式(们)。只有在若干个 hierarchy级后,做空间模式(们) 组合并表示可视化空间的大多数或全部。
像一个生物学系统一样，在一个多级临时记忆区中的学习算法有在线学习能力，例如他们(区们) 连续地从每个新输入学习。这不是必要的,对于学习阶段和推理阶段分离，虽然在额外的学习后,推理改善了. 当在输入中的模式(们) 改变，多级临时记忆区也会逐渐地改变。
在初始训练后，一个多级临时记忆能连续学习，或，在训练阶段后学习可以被禁用。另一个选项是只在该hierarchy的最低级,关掉学习,但在更高级继续学习。一旦一个分层例是记忆已经学到它的世界的基本统计结构，大多数新学习出现在该hierarchy 的更上层。如果一个多级临时记忆被暴露到新模式,之前没见过的低级结构，对多级临时记忆,它将花更久去学到这些新模式。在人类中，我们看到了这特点。在一个你已经知道的语言中,学习新词(们) 是相对容易的。然而，从一个不熟悉的发音的外语中，如果你试图学新词(们)，你会发现这非常困难,因为你不已经知道低级发音。
简单地发现模式是一个潜在价值能力。在市场波动、灾难、气象、理解、制造商投资收益,或复杂系统失效,如电网，理解高级模式是有价值的。即便如此，多数情况下, 学习空间、临时模式是推理、预测的先驱。

- 推理

在一个多级临时记忆已经学会这个世界的模式，它能在新奇的输入上执行推理。当一个多级临时记忆收到输入，它将匹配先前学到的空间、时间模式(们)。成功地匹配新输入到先前存储的序列(们) 是推理、模式匹配的精要。
考虑下你如何识别一个曲子的。听到曲子中的第一个音符,告诉你很少。第二个音符显著地缩小了可能性,但它或许仍然不够。通常听三、四或更多个音符,你你会识别出 (该)曲子。在一个多级临时记忆的区中的推理,是类似的。它不断地看 (一个) 输入流,并匹配他们到先前学到的序列(们)。一个多级临时记忆区能发现匹配,从序列(们) 的开始,但通常它(开始处) 是更流动的(不定的)，类似与,你如何能识别到一个从任何地方开始的曲子。因为多级临时记忆区(们) 用分布的表示，该区用的序列记忆、推理是更复杂的, 比曲子例子蕴含的，但是该例子给出一个味道,它怎么工作。
它可能不立即地(直白地) 明显，但每一个你曾经有的感官的体验,都是新奇的(译者注:你的每一个感官体验都是不全等的)，然而你轻易地发现类似的模式,在新奇的输入 (中)。例如，你能立即词 “早饭”,被几乎任何人说出来的，不论他们是老的或年轻的，男的或女的，说的快或慢，或有很重的口音。即使你让同一个人说同样的词 “早饭”,一百次，你的耳蜗(音频接收器) 从不模拟到两次,以精确地相等。
一个多级临时记忆区面临这个相同的问题,你大脑做的: 输入可能从不重复,精确地。因此，恰像你的大脑，一个多级临时记忆区必须处理新奇的输入,再推理、训练期间。一个多级临时记忆用新输入复制,是通过稀疏分布表示(们)。一个重要特点,稀疏分布表示(们), 是你只需要匹配模式的一部分,(就) 有把握 (确信) 匹配是显著的.

- 预测

一个多级临时记忆的每个区存储模式(们) 的序列(们)。靠匹配存储的序列(们),和当前输入，一个区形成一个预测,关于什么输入将可能下次达到。多级临时记忆区(们) 实际上存储了稀疏分布表示(们) 间的转变(们)。在一些实例中,转变(们) 可以看似一个线性序列，比如在曲子中的音符(们)(译者注:音符是差量,非量自身)，但在一般情况 (中),在相同时刻,多个可能的将来输入可能被预测(译者注:可以预测当前输入的下一个是单个、多个)。一个多级临时记忆区会做不同的预测,基于上下文,在时间上可能向后延伸很远。序列记忆、或存储空间模式间的转变(们) 作用于一个多级临时记忆的主要记忆。 (译者注：从一个预测一个叫序列，从一个预测多个叫转变)
下面是多级临时记忆预测的重要属性。

- 预测是连续的。

没有知觉到：你不停地 (在) 预测。多级临时记忆做同样的 (事)。当听一首歌，你在预测下一个音符。当下楼梯，你在预测何时你的脚会碰到下一个台阶。当看一个棒球手投递，你在预测球会落在击球手附近。在一个多级临时记忆区 (中)，预测、推理几乎是相同的事情。预测不是一个分离的步骤,而是分层例是记忆区工作方式的一部分。

- 预测出现在该hierarchy 的每个层的每个区。

如果你有多级临时记忆区(们) 的一个hierarchy，预测会出现在每层。区(们) 会做预测(们) 关于他们学到的模式(们)。在一个语言例子中，低级区(们) 可能预测下一个音素，而高级区(们) 可能预测字(们) 或短语(们)。

- 预测是上下文敏感的。

预测是基于过去什么已经出现了，和现在什么正出现。(译者注:预测是基于过去的输入和现在的输入)。因此一个输入会产生不同的预测,基于先前的上下文。一个多级临时记忆区学着去用,像需要的一样的许多前置上下文，并且能保持上下文,在短、长时间展开 (上)。这个能力叫可变顺序记忆。例如，考虑一个记忆的演讲,例如 Gettysburg Address。要预测下一个词，只知道当前词是很难够的；词 “and” 跟在 “seven” 后,…

- 预测导致稳定

一个区的输出是它的预测。多级临时记忆的属性之一是,区(们) 的输出变得更稳定,它(区) 是缓慢改变的,在该hierarchy 中, 他们(区们) 越高,持续越久。这个属性从,一个区如何预测,产生的。一个区不只预测,直接地下一个什么将发生。如果它能，它将预测在时间上提前预测多步。当一个新输入到达，该新预测步改变,但先前的四个预测步可能不变。结果，即使虽然每个新输入是完全地不同，只有一部分输出正在改变，使输出(们) 比输入(们) 更稳定。这个特性镜像我们真实世界的经验，在那,高级概念,比如歌名字,改变更慢比低级概念,这首歌的真实音符。

- 一个预测告诉我们,是否一个新输入是期待的或非期待的

每个分层时刻记忆区是一个新奇检测者。因为每个区预测,接下来将出现什么，它 “知道” 何时未预料的事情发生了。分层时刻记忆(们) 能预测许多可能的下一个输入(们),同时地，不仅仅一个。所以它或许不能预测精确地下一个将发生什么，但如果该下一个输入不匹配,任何输入(们),该分层时刻记忆区会知道一个异常已经出现了。

- 预测帮助使该系统更健壮,对噪音

当一个分层时刻记忆预测,下一个什么是可能发生的，该预测能让系统偏向推理,它预测过的。例如，如果一个分层时刻记忆在处理说话语言，它会预测什么声音(们)、词(们)、想法(们) 会说出来,紧接着(下一个)。这个预测帮助该系统填充丢失数据。如果一个歧义声音到达，该分层时刻记忆会解释该声音,基于它期待什么，因此帮助推理,即使在噪音出现。
在一个分层时刻记忆区 (中)，序列记忆，推理，预测是亲密集成的。他们是一个区的核心功能。

- 行为

我们的行为影响,什么我们观察(到)。当我们移动我们的眼睛(们)，我们的视网膜收到正变化的感官输入。移动我们的肢体(们)、手指(们) 导致变化的触感到达该大脑。几乎所有我们的动作改变,什么我们感觉(到的)。感官输入、运动神经的行为是亲密地纠缠着。
(持续) 几十年(的) 主流观点是,在该新大脑皮层 (中),一个单区,主运动神经区,是运动命令在该新大脑皮层中起源的地方。久而久之,发现,多数或全部区(们),在该新大脑皮层 (中), 有一个运动输出，即使低级感官区(们)。像是,全部皮层区(们) 集成感官、运动功能(们)。
我们期待,一个运动输出能被加到每一个分层时刻记忆区,在当前存在的框架 (内),因为生成运动命令(们) 和做预测(们) 是类似的。然后，全部分层时刻记忆(们) 的实现(们),到目前为止,是纯感官的，没有一个运动组件。

- 过程,朝多级临时记忆实现

我们已经做大量过程,转化该分层时刻记忆理论框架到一个实用技术。我们已经实现并测试了若干给版本的分层时刻记忆皮层学习算法, 并发现知名的基本体系结构。当我们测试该算法在新数据集(们) (上)，我们会改进算法,添加缺失的块。我们会更新这个文档,当我们做 (的时候)。下三章描述该算法(们) 的当前状态。
该算法有许多部件(们),还没有实现，包括注意力，区(们) 间的反馈，指定时间，行为/感官-运动集成。这些缺失的部件适应到已经创建的框架 (中)。

2 多级临时记忆皮层学习算法

这一章描述学习算法(们),一个分层时刻记忆区内部工作的。第三章、第四章描述该学习算法(们) 的实现,用伪码，然而,这一章是更概念化的。

- 术语

在我们开始之前，一个笔记,关于术语可能是有帮助的。我们用神经科学的语言,在描述分层时刻记忆学习算法 (上)。术语,例如细胞(们)，synapse(们)，潜在 synapse(们)，dendrite 段(们)，列(们) 被使用,自始至终。这个术语是逻辑的,因为该学习算法(们) 是极大地源自, 靠匹配神经科学细节(们),带着理论需要(们)。然后，在实现该算法(们) 的过程中,我们面临性能问题,因此一旦我们感觉我们理解了事情怎么工作的,我们会寻找途径,去加速处理。这经常引入脱离,从一个严格的遵守生物学细节,直到我们能获得相同的结果(们)。如果你是神经科学新手,这不会是问题。然后，如果你熟悉神经科学术语，你可能发现自己困惑,因为我们我们术语(们) 的用法变化,从你的期待。该附录(们),关于生物学,讨论差异(们)、类似(们),在该分层时刻记忆学习算法(们) 和他们的神经生物学对等物,在细节上。这里,我们会注意到一些分离,它可能导致多数困惑。

- 细胞状态

分层时刻记忆细胞(们) 有三个输出状态，激活,从前-喂输入，激活,从横向(译者注:兄弟) 输入(这表示一个预测)，抑制。第一个输出状态对应一个动作电位的短脉冲,在一个神经元 (中)。第二个输出状态对应一个更慢的，稳定速率的动作电位,在一个神经元 (中)。我们没发现一个需要,对于建模对立动作电位(们),或甚至在这两个激活状态上的速率标量。分布表示(们) 的用法看似,克服了该需要,去建模在细胞(们) 中的标量激活。

- dendrite(译者注:非线性函数、激活函数) 段(们)

分层时刻记忆细胞(们) 有一个相对现实的 (因此复杂) 的 dendrite 模型。理论上，每个分层时刻记忆细胞有一个近 dendrit 段,一打或两个远 dendrit 段(们)。该近 dendrite 段接收前-喂输入,该远 dendrite 段(们) 接收横向(译注:兄弟) 输入,从附近细胞(们)。一类抑制细胞(们) 强迫所有该细胞,在一个列 (中), 对应到类似的前-喂输入。为了化简，我们移除了该近 dendrite 段,从每一个细胞,并替换它用一个单共用 dendrite 段,每列的细胞(们)。该空间共同函数(下面叙述) 操作在该共用 dendrite 段，在列(们) 级。该时刻共同函数操作在远 dendrite 段(们)，在列内的独立细胞(们) 级上。这个简化达到相同的功能，虽然在生物学 (上),没有对等物,跟一个 dendrite 段,附着到一个列。

- synapse(译者注:权重)(们)

分层时刻记忆 synapse(们) 有二值权重。生物学 synapse 有可变权重,但他们也是部分随机的，意思是说一个生物神经元不依赖精确的 synaptic 权重(们)。在分层时刻记忆(们) 的分布表示(们) 的使用,加上,我们的 dendrite 操作模型,允许我们赋予二值权重(们) 给分层时刻记忆 synapse(们),不带有病态作用。为了建模,synapse(们) 的形成、没形成,我们用两个额外的概念,从神经科学,你可能不熟悉的。一个是潜在 synapse(们) 的概念。 这表示所有 axon(们),靠的足够近到一个 dendrite 段,他们(axon和dendrite段) 能潜在地形成一个 synapse。 第二个被叫做 “紧度”。这是一个标量值,赋给每一个潜在 synapse。一个 synapse的紧度表示一个axon 和一个 dendrite 之间的连接程度的范围。生物学地，这个范围会从完全地不连接的 synapse,到开始形成一个 synapse 但还没连接，到一个最小地连接的 synapse，到一个极大地完全的连接的 synapse。一个 synapse 的紧度是一个标量值,变化从 0.0 到 1.0。学习包含增加、减小一个 synapse的紧度。当一个 synpase的紧度是在一个阈值之上，它被连接以权重 “1” 。当它是在该阈值之下，它断开连接以权重 “0”。

- 概要

想象你是一个分层时刻记忆的一个区。你的输入包含几千、几万的 bits。这些输入 bits 可能表示感官数据,或他们可能来自另一个在该hierarchy中更低的区。他们以复杂的方式打开、关闭。你想用这个输入做什么？
我们已经讨论了答案,以它的最简单的形式。每个分层时刻记忆区寻找在它的输入中的相同模式(们),然后学习这些模式(们) 的序列(们)。从它的序列(们) 的记忆，每个区做预测(们)。高级描述使它听起来容易，但实际上还有许多要继续。让我们进一步分解它到下面三步：
1 形成该输入的一个空间分布表示
2 在先前输入(们) 的上下文下,形成该输入的一个表示
3 在先前输入(们) 的上下文下,基于当前输入,形成一个预测
我们会讨论每一步,在更细节 (上)。
1 形成该输入的一个空间分布表示
当你想象到一个区的一个输入 , 把它当成一个极大数目的 bits。在一个大脑 (中),这些是来自神经元(们) 的 axon(们)。在时间上的任何一点, 这些输入 bits 中的一些会是激活的(值1),其他的会是失活的(值0)。输入 bits 中激活的百分比变化,据说从 0% 到 60%。第一件事情,一个分层时刻记忆区做的,是去转化这个输入到一个新表示,稀疏的。例如，该输入中可能有 40% bits 是 “开的”,但该新表示只有 2% bits 是 “开的”。
一个分层时刻记忆区逻辑地由列的集合组成。每个列由一个或多个细胞组成。列可能逻辑地排列,以二维数组,但这不是必须的。在一个区中的每一个列,连到输入 bits 的一个唯一子集（经常和其他列(们) 重叠,但绝不精确地相同的输入 bits 的子集）。该输入的该空间表示被编码,靠哪个列是激活的,哪个列在抑制后是失活的。抑制函数被定义为,达到一个相对常量百分比,激活的列，即使当输入 bits 的个数,激活的,显著地变化。
图 2.1: 一个分层时刻记忆区由细胞列组成。只显示了一个区的一小部分。每个细胞列接收激活,从一个唯一的该输入的子集。带有最强激活的列,　抑制，　带有更弱激活的列。结果是该输入的一个空间分布表示。 该图显示激活列,以亮灰色。（当没有前置状态，在激活列中每个细胞会被激活，如同显示的。）
想象,现在该输入模式改变了。如果仅仅少数输入 bits 改变了，某些列(们) 会收到多一点点或少一点点输入 (bit),是 “开” 状态，但是激活列(们) 的集合不大可能变化很多。因此相似的输入模式（那些有显著数量的共同激活bits）会映射到激活列(们) 的一个相对地稳定的集合。编码的稳定程度极大地依赖于每个列连到什么输入(们) (上)。这些连接被学到,通过稍后叙述的一个方法。
所有这些步骤（学到这些连接, 从该输入(们) 的一个子集到每个列，决定输入到每列的级，使用抑制去选择一个激活列(们) 的稀疏集合）被称作 “空间 (相似) 同 (表示)”(译注:空间相似,则用同样的上层表示)。该术语意味着, “空间地” 相似的模式（意味着他们共享大量激活 bits ）是(被) “合并的” （意味着他们以同样的表示被分到同一组）
2 在先前输入(们) 的上下文下,形成该输入的一个表示
下一个功能,被一个区执行的,是去转化输入的圆柱状表示到一个新表示,它含有状态,或上下文,从过去。这个新表示被形成,靠激活在每个列中的该细胞(们) 的一个子集，典型地每个列只一个细胞(图 2.2)。
考虑听到两个说出来的句子，“I ate a pear” 和 “I have eight pears”。字 “ate” 和 “eight” 是同音字；他们听起来一样的。我们能确认这个,在某个点,在大脑中,有神经元(们),他们唯一地对应到口语 “ate” 和 “eight”。毕竟，同样的声音进入了耳朵。然后，我们也能确定这,在另一个点,在大脑中,该神经元(们) 对这个输入的响应是不同的,在不同的上下文。发音 “ate” 的表示会不同,当你听到 “I ate” 和 “I have eight”。想象,你已经记住这两个句子 “I ate a pear” 和 “I have eight pears”。听着 “I ate …” 导致一个不同于 “I have eight …” 的预测。必定有不同的内部表示,在听着 “I ate” 和 “I have eight” 之后。
这个原理,同一个输入 (有) 不同的编码,在不同的上下文,是认知和动作的一个通用特征,　并且 (该原理) 是一个分层时刻记忆去的最重要的功能之一。过分强调这个能力的重要性是很难的。
在分层时刻记忆区中的每个列由多个细胞组成。一个列中的所有细胞(们) 得到相同的喂-前输入。在一个列中的每个细胞可以被激活或不激活。靠选择不同的激活细胞(们) ,在每个激活列中，我们能表示该额外的相同输入不同地,在不同的上下文。一个具体的例子或许由帮助。说没个列由 4 个细胞,每个输入的表示由 100 个激活列表示。如果每列仅仅一个细胞,在一个时刻,我们由 4^100 个方式表示该额外的相同输入。 该相同输入会总是导致相同的 100列被激活，但是在不同的上下文,在这些列(们) 中的不同的细胞会被激活。 现在我们能表示相同的输入,在一个非常大量的上下文中，但是怎么区分这些不同的表示呢？近似地,全部随即地从 4^100种可能模式选择对(们),会被大约 25个细胞覆盖。因此一个特定输入的两个表示,在不同上下文中,会有大约 25个细胞相同,75个细胞不同,使得他们容易地被区分。
被一个分层时刻记忆区使用的通用规则在下面 (叙述)。当一个列变成激活的，它着眼于该列中的全部细胞。如果一个或多个细胞,在该列中,是已经在预测状态，仅仅这些细胞边激活。如果没有细胞,在该列中,是激活状态，那么全部这些细胞变成激活的。 你能这样考虑它，如果一个输入模式是被期待的,那么该系统确认这个期待,靠激活仅仅在预测状态的该细胞(们) 。 如果该输入模式是意料之外的,那么该系统激活在该列中的全部细胞,仿佛在说 "出现的该输入是意料之外的,故全部可能的解释是合法的 "
如果没有前置状态，因此没有上下文和预测，所有在一个列中的这些细胞将变成激活的,当该列变成激活的。这个情节是类似的,和听一首歌中的第一个音符。没有上下文,你通常不能预测,接下来会发生什么；所有选项是可用的。如果有前置状态,但输入不匹配意料的，在该激活列中的全部细胞会变成激活的。++这个决定被做,在一列接一列基础上,所以一个预测的匹配或不匹配绝不是一个 “全部-或-空表” 事件。++
图2.2：靠激活细胞(们) 的一个子集,在每列 (中), 一个分层时刻记忆区能表示相同输入,在多个不同上下文 (中)。列仅仅激活预测的细胞(们)。无激活细胞的列,激活该列中的全部细胞。该图显示某些列,有一个细胞激活, 　某些列,有全部细胞激活。
像提到的,在上面术语段，分层时刻记忆细胞能在三个状态中的一个。如果一个细胞是激活的,由于喂-前输入,我们只用术语 “激活”。如果该细胞是激活的由于兄弟(横向) 连接到其他附近细胞,我们称之为 “预测状态”(图2.3)。
3 在先前输入(们) 的上下问下,基于当前输入,形成一个预测
对于我们的区的最终步骤是区做一个预测,接下来什么是最可能发生的。该预测是基于在步骤2 形成的表示，它包含上下文,从所有先前的输入(们)。
当一个区做一个预测,它(该区) 激活（进入预测状态）所有该细胞(们),(这些细胞) 很可能会变成激活,由于将来的喂-前输入。因为在一个区 (中的) 表示是稀疏的，在相同时刻,可以做多预测。例如，如果该列(们) 的 2% 是激活的,由于一个输入，你可以期待,做十个不同的预测,(会) 导致该列(们) 的 20% 有一个预测的细胞。或者，做 20个不同的预测,(会) 导致该列(们) 的 40% 有一个预测的细胞。如果每列有四个细胞，在同一时刻有 1个(细胞) 激活的，那么该细胞(们) 的 10% 会处于预测状态。
后面一章,关于稀疏分布表示,会展示尽管不同的预测被合并在一起，一个区能高概率地知道,是否一个特定的输入是否是预测的。
一个区怎么做一个预测？当输入模式(们) 随时间改变，列(们)、细胞(们) 的不同集合(们) 按序列变激活。当一个细胞变成激活的，它形成连接(们),到附近细胞(们) 的一个子集,他们(附近细胞) 是激活的直接地前置。这些连接能被快速地或慢速地形成,(快慢) 依赖于该应用需要的学习率。之后，一个细胞需要做的全部是,看写这些连接,对同时发生的激活。如果该连接(们) 变激活，该细胞可以期待,它可能立刻变激活,并进入一个预测状态。因此细胞集合的该喂-前激活,典型地会导致其他细胞集合跟着 (进入) 预测的激活。把这个当作时刻,当你认出一首歌,并开始预测下一个音符(们)。
图 2.3：在任意时刻点上，在一个多层时刻记忆区中的一些细胞会激活,由于喂-前输入（以亮灰色显示）。其他细胞,收到兄弟输入,从激活的细胞,会处于一个预测的状态（以暗灰色显示）。
总的来说，当一个新输入到达，它导致激活列(们) 的一个稀疏集合。在每个列中的这些细胞中的一个或多个变成激活的，这些按序导致其他细胞进入一个预测状态,通过学到的连接,在该区的细胞(们) 之间的。被该区内的连接(们) 激活的细胞(们) 组成一个预测,(关于) 接下来什么可能发生。当下一个喂-前输入到达，它选择了另一个激活的列(们) 的稀疏集合。如果一个新的激活列是非预期的，意味着它不是预测的,被任意细胞，它会激活在这些列中的全部细胞。如果一个新的激活列有一个或多个预测的列(们)，只有这些细胞会变成激活的。一个区的输出是,在该区中的全部细胞的激活，包含由于喂-前输入激活的细胞(们),在预测的状态激活的细胞(们)。
像之前提到的 (一样)，预测不只是下一个时间步骤。在一个多层时刻记忆区中的预测(们) 能有几个时间步骤,在将来。以曲子为例子，一个多层时刻记忆区不会只预测下一个音符,在一个曲子中，而可能预测下四个音符。这导致一个吸引人的属性。一个区的输出（在一个区 (中的), 全部激活的、预测的细胞(们) 的并集）改变的更慢比该输入。想象该区正预测下四个音符,在一个曲子 (中)。我们可以表示该曲子,按字母顺序 A,B,C,D,E,F,G。在听到首两个音符，该区识别到该序列并开始预测。它预测 C,D,E,F。该 “B” 细胞(们) 已经激活,所以 B,C,D,E,F 的细胞全部在该两个激活状态中的一个。现在该区听到下一个音符 “C”。激活、预测细胞(们) 的集合现在表示 “C,D,E,F,G”。注意,该输入模式完全地改变,从 “B” 到 “C”，但只该细胞(们)的 20% 改变了。
因为一个多层时刻记忆区的输出是一个向量,表示该区的所有细胞(们) 的激活，在这个例子 (中的) 输出是五倍稳定,比输入。在一个多级区(们) 布局 (中)，当你 (在) 该多级 (中) 向上走,我们会看到一个临时(时刻) 稳定性的增加。
我们用术语 “时刻 pooler” 去描述该两步骤,增加上下文到该表示和预测。靠创建缓慢地改变模式(们) 的序列(们) 的输出，从本质上,我们 “pooling” 不同的模式到一起,(这些模式) 在时刻上跟随彼此。
现在我们会进入细节的另一级。我们开始以概念,被空间相似则同表示和时刻相似则同表示共享的。然后我们讨论概念、细节,唯一到空间相似同表示,接着是,概念、细节唯一到时刻相似则同表示。

- 共享的概念

在空间相似则同表示、时刻相似则同表示上学习是类似的。在这两种情况下学习包括建立连接(们) 或 synapse(们),在细胞(们) 之间。时刻相似则同表示学习喂-前连接(们),在输入 bits 和列(们) 之间。

- 二值权重

多级时刻记忆 synapse(们) 有只 0 或 1 起作用；他们的 “权重” 是二值的，一个属性,不像许多神经网络模型(们),(他们) 用标量值,在范围 0 到 1。

- 性能

在学习期间, synapse(们) 不断地形成,反形成。像之前提到过的，我们赋予一个标量值给每一个 synapse （从0.0到1.0）,去指示多么结紧,该连接是。当一个连接被加强，它的结紧被提升。在其他条件(们) 下，该结紧被降低。当该结紧是在一个阈值(比如 0.2) 之上，该 synapse 被认为是建立了。如果该结紧低于该阈值，该 synapse 会无效。

- dendrit 段(们)

synapse(们) 连接到 dendrit 段(们)。有两种 dendrit 段(们)，近、远。
一个近 dendrit 段形成 synapse(们),用喂-前输入(们)。该激活的 synapse(们),在这种段,是线性加,以决定了一个列的该喂-前激活。
一个远 dendrit 段形成 synapse(们),用在该区中的细胞(们) 。每个细胞有若干个远 dendrite 段(们)。如果该激活 synapse(们) 的累加和,在一个远段,超出一个阈值, 然后该相关的细胞变成激活,在一个预测状态。因为,每个细胞有多个远段，一个细胞的预测状态是,多个阈值检测机构的逻辑或操作。

- 潜在 synapse(们)

像之前提到过的，每个 dendrite段有一个潜在 synapse 列表。所有该潜在 synapse(们),被给定一个结紧值,可能变成起作用的 synapse(们),如果他们的结紧值超出一个阈值。

- 学习

学习包含增加或减少潜在 synapse(们) 的结紧值,在一个远段的。用于使 synapse(们) 更多或更少结紧的规则,(是) 类似于 Hebbian 学习规则。例如，如果一个后-synaptic 细胞 (是) 激活了,由于一个远段,正接收在它阈值之上的输入，然后在该段上的这些 synapse(们) 的结紧值被修改。激活的 synapse(们)，因此贡献给正激活的该细胞，使他们的结紧增加。非激活的 synapse(们)，因此无贡献，使他们的结紧值降低。在其他条件下, 结紧值更新 (方式) 不同,在空间相似则同表示和时刻相似则同表示 (中)。下面会描述细节。
现在我们要讨论空间相似则同表示、时刻相似则同表示的相关内容。

- 空间相似则同表示概念

空间相似则同表示的最基础的函数,是去转化一个区的输入到一个空间模式。该函数是重要的,因为原理,用于学习序列、做出预测,以空间分布表示开始。
有几个覆盖的目标,对于空间相似则同表示，(他们) 决定老空间相似则同表示怎样操作和学习。

- 1 用全部列

一个多级时刻记忆区有一个固定数目的列,(他们) 学习去表示通用模式,在该输入 (中的)。一个目标,确保全部该列(们) 学习去表示有用的某事物,(而) 忽略你有多少列。我们不想 (要) 列(们),从不激活的。(为了) 阻止这个发生，我们保持跟踪,多么频繁,一个列是激活的,相对于它的邻居(们)。如果一个列的该相对激活,是太低，直到他开始成为赢的列集合的一部分,他 (才会) 提高他的激活水平。本质上来说，全部列 (是) 在竞赛,和他们的邻居(们),以变成表示输入模式的一个参与者。如果一列不是很激活，它会变的更进取。当他做了(激活了)，其他列将会被迫修改他们的输入,并开始稍微不同地表示输入模式。

- 2 维持希望的(确定的) 密度

一个区需要去形成一个他的输入(们) 的稀疏表示。带有最多输入的列(们) 抑制他们的邻居。抑制半径,(它) 正比例于该列(们)的感受野(易接受的区域) 的尺寸（因此能从小变到该整个区的尺寸）。在抑制半径内，我们允许只一百分比的列,带有最多激活输入,以变成赢者。该列(们) 的剩余(列们) 被禁用。（一个抑制半径意味着列(们)的一个二维布局，但该概念容易适配到其他拓扑(布局)）.

- 3 避免平凡模式

我们想让全部我们的列表示在输入中的非平凡模式(们)。这个目标能被到达,靠设置输入的一个最小阈值,对于要被激活的列 (的输入)。例如，如果我们设置该阈值为 50，它意味着,一个列必须有一个至少 50个激活的 synapse,在它的要被激活的 dendrit 段，(以) 保证一个确定的复杂水平, 它表示的该模式 (的复杂水平)。

- 4 避免额外连接

如果我们不小心，一个列能形成大量的合法 synapse。然后,他会强烈地响应,对许多不同的不相关的输入模式。该 synapse(们) 的不同子集对不同的模式响应。为了避免这个问题，我们降低任何 synapse的结紧值,(该synapse) 不是当前地贡献给一个赢的列。靠确保非贡献 synapse(们) 是不充分地处罚，我们保证一个列表示一个受限数目的输入模式，有时候 (该数目) 仅仅 (为) 一个。(译者注:没说充分的处罚是什么)

- 自调整感受野(易接受的域)

真实的大脑(们) 是高度地可塑的；该新大脑皮层的区(们) 能学习,去表示在生理上完全地不同的事物　成　各种各样的差异(变化)。如果该新大脑皮层的 (一)部分被损坏，其他部分会调整以表示,损坏部分表示的事物。如果一个感官器官被损坏或被改变，该新大脑皮层的相关的部分会调整以表示其他事物。该系统是自-调整的。
我们想让我们的多级临时记忆区(们) 展现同样的灵活性。如果我们分配 10k 个列给一个区，它应该学会,如何最佳表示该输入,以 10k 个列。如果我们分配 20k 个列，它应该学会,如何最佳用该数目。如果该输入统计变了，该列(们) 应该改变到最佳表示该新实际。简言之，一个多级时刻记忆的设计者应该能分配任意(多) 资源(们) 给一个区,并该区会做它能做的最佳工作,表示该输入,基于该可用的列(们) 和输入统计。该通用规则是,在一个区中带有更多列，每个列会表示在　该输入中的　更大、更多详细模式(们)。典型地,该列(们) 也会更少频繁的激活，然而我们会维持一个相对不变的稀疏水平。
不需要新学习的规则以达到这个高度渴望的目标。靠增加非激活列(们)，抑制邻居列(们) 以维持不变的稀疏，建立对输入的最小阈值，维持潜在 synapse(们) 的一个巨大 pool，并基于他们的共享添加、忘记 synapse(们)，全体列会动态地配置以达到该期望的效果。

- 空间相似则同表示细节

我们现在可以浏览　该空间 pooling 函数做的　一切。
1 以一个　包含固定数量 bit 的　输入开始。这些 bit 可能表示感官数据,或他们可能来自　在该多级中更低的　另一个区。
2 赋予一个固定数量的列,给接收该输入的区。每个列有一个相关的 dendrit 端。每个 dendrit 段有,一个　潜在 synapse 集合表示该输入 bit 的一个子集。每个潜在 synapse 有一个紧结值。基于他们的紧结值，一些潜在 synapse 会变成合法的。
3 对于任意给定输入，决定　在每个列上　有多少个合法的 synapse 连接到激活的输入 bits。
4 激活的 synapse(们) 数目被乘以一个鼓励(boosting) 因子,(该因子) 动态地由　一个列相对于它的邻居(们) 的激活频率　决定。
5 在鼓励后　带有最高激活的列(们)　禁用　在一个抑制半径内的　全部,而不是一个固定百分比　的列(们)。该抑制半径被他自己动态地决定,按输入 bits 的传播。现在由一个激活列的空间集合了。
6 对该激活列(们) 的每一个，我们调整　全部该潜在 synapse(们)的　紧结值。跟激活输入 bits 对齐的　 synapse(们)的紧结值　被增加了。跟非激活输入 bits 对齐的　 synapse(们)的紧结值　被降低了。对紧结值(们) 的修改可能改变一些 synapse(们),从合法到不合法、或相反。

- 时刻相似则同表示概念

和上面相似, 时刻相似则同表示学习序列,并做预测。基本方法是,当一个细胞变成激活的，它形成　到其他细胞,曾是激活的,只先前　的连接。细胞(们) 然后能预测,当他们变成激活的,靠看他们的连接。如果全部该细胞(们) 做这个，他们能集体地存储、回想序列(们)，并且他们能预测,接下来可能发生什么。没有中心化存储,对一个模式(们) 的序列；相反，记忆是分布在个体细胞(们) 之间。因为该记忆是分布的，该系统是健壮的,对噪音和错误。个体细胞(们) 可以失效，经常地在很难或不可辨别的作用 (下)。
它是值得的,注意到,temporal pooler 开发的,空间分布表示的一些重要属性。
设想,我们有一个假设的区,它总是形成表示(们),靠用共 10k个细胞中的 200个激活细胞（在任意时刻 2% 的细胞）。我们怎么能记住、识别　 200个激活细胞的　一个特定模式。做这个的　一个简单方式是做一个列表,我们在乎的这 200个激活细胞。如果我们看到相同的 200个细胞再次激活,我们识别到了该模式。但是，如果我们做一个列表,只有该 200个激活细胞中的 20个,并忽略其他 180个呢？会发生什么？你可能认为,记住仅仅 20个细胞,会导致许多错误，这 20个细胞会激活,以 200个中的许多不同模式。但它不是该情形。因为该模式(们) 是巨大的、稀疏的（你这个例子中,10k个细胞中200个激活细胞），记住 20个激活细胞几乎和记住全部200个一样好。在实践系统中,错误几率极度地小,同时我们相当大地降低了内存需求。
在一个多级时刻记忆区中的细胞(们), 利用了该属性。每个细胞的 dendrite 段(们),有一连接集合,(连接到) 该区中的其他细胞。一个 dendrite 段形成这些连接,作为含义:识别该网络在某时间点的状态。在附近,可能有几百、几千个激活的细胞,但该 dendrite段只必须连到其中 15或20个。当该 dendrite段看到这些激活细胞中的 15个，它能相当地确定较大的模式出现了。这个技术叫做 “子-采样”,多级时刻记忆算法到处使用了 (该技术)。
每个细胞参与,多个不同分布的模式,多个不同的序列。一个特定的细胞可能是, 数打或数百个临时转变, 的一部分。因此每个细胞有若干个 dendrite 段, 不止一个。理想地,一个细胞会有一个 dendrite段,给每个激活模式,它想识别的。不过,实践地，一个 dendrite段能学习　若干个完全地不同的模式(们) 的　连接(们),并且仍然工作良好。例如，一个段可能学习　每 4个不同模式的　 20个连接，对于总共 80个连接。然后我们设置一个阈值,以(使得) 该 dendrite段变成激活的,当　它的连接中的　任意 15个是激活的。这引入了错误的可能性。它是可能的，按机会，该 dendrite 达到它的阈值 15 个激活的连接,靠混合不同模式的一部分。然而，这种错误是非常不太可能地，再次由于该表示(们) 的稀疏性。
现在我们能看到,一个细胞,带有一打或两打 dendrite 段、数千个 synapse,能识别数百个　细胞激活的分离状态。

- 时刻相似则同表示细节

这里我们枚举　被时刻相似同表示　执行的步骤(们)。我们开始,不考虑空间相似则同表示,带有　表示该喂-前输入　的激活列集合。
1 对每个激活的列，检查　在预测状态的该列　中的细胞，并激活他们。如果没有细胞在激活状态，激活　该列中的　全部细胞。激活细胞的结果集是,在前置输入上下文中　的该输入的表示。
2 对于　在该区中的每个细胞的　每个 dendrite，计数多少个已建立的 synapse 是已连接到激活的细胞(们)。如果该数目超过一个阈值，该 dendrite 段被标记为激活的。细胞(们),带有激活的 dendrite 段(们) 的, 被放在预测状态, 除非他们已经　由于喂-前输入 (从而)　是激活的。细胞(们),　带有:非激活 dendrite(们)、由于自下而上的输入 (从而) 非激活,　变成或保持非激活。细胞集合,现在在预测状态的,是该区的预测。
3 当一个 dendrite 段变成激活的，修改　与该段相关的　所有该 synapse(们) 的紧结值。对于每一个潜在 synapse,在激活的 dendrite 段上的,增加　这些 synapse(们) 　的该紧结值, (这些synpase们) 连到激活细胞(们); 降低　这些 synapse(们) 　的该紧结值,(这些synpase们) 连到非激活细胞(们)。对 synapse 紧结值的这些改变, 被标记为 temporary(临时或时刻)。
这修改了在段(们) 上的该 synpase(们) ,(这些synapse)已经充分地训练以使得该段激活，因此导致一个预测。然而，我们总是想扩展预测(们),更远向后,在时间上,如果可能。因此，我们在相同细胞上挑了一个第二个 dendrite 段,去训练。对于该第二个段,我们选择,那个最匹配系统在上一时间步的状态的。对于这个段，用系统在上一时间步的状态，增加连到激活细胞(们) 的那些 synapse(们) 的紧结值,降低连到非激活细胞(们) 的那些 synapse(们) 的紧结值。对 synpase 的紧结的这些改变被标记为时刻(临时 temporary)。
4 每当由于喂-前输入一个细胞从非激活切换到激活，我们遍历跟该细胞关联的每个潜在的 synapse,并移除任何 temporary 标记。因此,只有他们正确地预测了该细胞的该喂-前激活, 我们 (才) 更新 synapse(们)的紧结。
5 当一个细胞从 either 激活切换到非激活，对在这个细胞上的每个潜在 synpase,撤销被标记为 temporary 的任何紧结改变。我们不想加强不正确地预测了一个细胞的喂-前激活的 synapse(们) 的紧结。
注意,仅仅由于喂-前输入而激活的细胞 (能) 在该区内传播激活，其他预测(们) 会导致进一步的预测。但该所有激活细胞（喂-前、预测的）形成一个区的输出,并传播到在多级中的下一个区。

- 第一序 versus 变序序列、预测

在我们结束关于空间相似则同表示、时刻相似则同表示的我们的讨论之前,有一个更主要的话题要讨论。可能不是所有读者都对它感兴趣,并且 (对于) 理解第三章、第四章,它也是非必需的。
…

3 空间池化实现、伪码

这一章包含空间相似则同表示功能的第一个实现的详细的伪码。给这段代码的输入,是来自感官数据或先前级的一个自下而上的二进制输入的数组。该代码计算 activeColumns(t) – 在时刻 t, 由于该自下而上的输入, 而赢的列列表。这个列表作为输入被发送到下一章描述的时刻相似则同表示例程，即 activeColumns(t) 是该空间相似则同表示例程的输出。
该伪码被分割成按顺序出现的三个不同的阶段:
阶段1 : 对每个列,用当前输入,计算覆盖
阶段2 : 在抑制后,计算赢的列(们)
阶段3 : 更新 synapse 紧结和内部变量
虽然空间相似则同表示学习是天生在线地 (学习)，(但) 简单地取消阶段3,你 (就) 可以关掉学习。
本章剩余(部分) 包含三阶段中每一个的伪码。在末尾,定义了在该代码中用到的各种数据结构和支持的例程。

初始化

在接收任何输入之前，靠对每个列计算初始潜在 synapse 列表,以初始化该区。这包含从该输入空间选择的输入(们) 的随机集合。每个输入用一个 synapse,并给(该synapse) 赋以随机紧结值来表示。该随机紧结值用两个标准选出来的。第一，该紧结指(们) 是从在 connectedPerm(为中心)的小区间中选择的。connectedPerm(译注:允许连接:允许成为已连接的界限紧结值). connectedPerm(一个synpase被认为是"已连接"的最小紧结值)。在少量的训练伦次后, 这 (就) 能使得(启用) 潜在synapse(们) 变成已连接（或已断开）。第二，每个列以该输入区的自然中心为中心(译注:不太确定这句话意思,是列的中心还是区的中心)，朝这个中心,紧结值(们) 有一个偏执（在中心附近,紧结有更高的值）。

阶段1:覆盖

给定一个输入向量，用该向量, 阶段1 计算每个列的覆盖。每个列的覆盖简单(来说) 是跟激活输入连接的 synapse(们)的个数乘以它的鼓励(boost)。如果这个值 (是) 低于 minOverlap，我们把该overlap 设置为零。

1. for c in columns
2. 
3.     overlap(c) = 0
4.     for s in connectedSynapses(c)
5.         overlap(c) = overlap(c) + input(t,s.sourceInput)
6. 
7.     if overlap(c) < minOverlap then
8.         overlap(c) = 0
9.     else
10.        overlap(c) = overlap(c) * boost(c)

阶段2:抑制

第二阶段
第二阶段计算,在抑制步骤后,哪些列作为赢者剩余。desiredLocalActivity 是一个　控制最后赢的列个数的　参数。例如，如果 desiredLocalActivity 是 10，一个列会是赢者,如果他的 overlap 分比　在抑制半径内　的第10高的列的分数高。

11. for c in columns
12. 
13.     minLocalActivity = kthScore(neighbors(c),desiredLocalActivity)
14. 
15.     if overlap(c) > 0 and overlap(c) >= miniLocalActivity then
16.         activiColumns(t).append(c)
17.

阶段3:学习

第三阶段执行学习，他更新全部必要的 synapse(们)的紧结值，也更新鼓励和抑制半径。
主要学习规则实现在行 20-26。对于赢的列(们)，如果一个 synapse 是激活的，他的紧结值是增加的，否则他的紧结值是降低的。紧结值被限制在 0 到 1 之间。
行 28-36 实现鼓励。在合适的位置,有两个分离的鼓励方法,帮助一个列学习连接(们)。如果一个列不是赢的足够频繁（以activeDutyCycle测量）。他的全部鼓励值会降低（行30-32）。Alternatively，如果一个列的已连接的 synapse(们) 没有和任何输入覆盖的足够频繁（以overlapDutCycle测量），他的紧结值会被鼓励（行34-36）。注意：一旦学习被关闭，c的鼓励被冻结。
最后，阶段三的结尾,重算抑制半径（行38）。

18. for c in activeColumns(t):
19. 
20.     for s in potentialSynapses(c):
21.         if active(s) then
22.             s.permannence += permannenceInc
23.             s.permannence = min(1.0,s.permannence)
24.         else
25.             s.permannence -= permannenceDec
26.             s.permannence = max(0.0,s.permannence)
27. 
28. for c in columns:
29. 
30.     minDutyCycle(c) = 0.01 * maxDutyCycle(neighbors(c))
31.     activeDutyCycle(c) = updateActiveDutyCycle(c)
32.     boost(c) = boostFunction(activeDutyCycle(c),minDutyCycle(c))
33.     
34.     overlapDutyCycle(c) = updateOverlapDutyCycle(c)
35.     if overlapDutyCycle(c) < minDutyCycle(c) then
36.         increasePermanences(c,0.1*connectedPerm)
37. 
38. inhibitionRadius = averageReceptiveFieldSize()

支持的数据结构和例程

在伪码中, 用到了下面的变量和数据结构。

名字	解释
columns	列表,全部列
input(t,j)	在时刻t,给该级的输入。如果第j个输入是开,则input(t,j)为1
overlap©	在一个特定输入模式下,列c的空间相似则同表示的 overlap
activeColumns(t)	由于自下而上的输入,赢的列下标列表
desiredLocalActivity	在抑制步骤后,控制赢的列个数,的参数
inhibitionRadius	列(们)的平均连接接收区域尺寸
neighbors©	在列c的inbitionRadius内的全部列
minOverlap	在抑制步骤期间,一个不被淘汰的列,必须有的最少激活输入
boost©	列c的鼓励值
synapse	一个数据结构表示一个 synapse----包含一个紧结值和源输入下表
connectedPerm	如果一个 synapse的紧结值比connectedPerm大,就说它是已连接的。
potentialSynapses©	c的潜在synapse列表,以及(这些)synapse的紧结值
connectedSynapses©	potentialSynapses©的一个子集,在该子集中,紧结值比 connectedPerm大。有自下而上的输入,当前连接到列c。
permanenceInc	在学习期间,synapse(们)的紧结值被增加的量
permanenceDec	在学习期间,synapse(们)的紧结值被降低的量
activeDutyCycle©	(c的激活负载周期). 一个滑动平均值,表示, 在 c 抑制后,c被激活的频率
overlapDutyCycle©	(c的overlap负载周期).一个滑动平均值,表示在它的输入(下) 列c 有显著 overlap（比如比minOverlap大）的频率。（比如最近 1k个轮次）
minDutyCycle©	(c的最小占空比;c的最小负载周期).对一个细胞,表示最小希望开火速率的一个变量。如果一个细胞的开火速率低于该值，它会被鼓励。该值被计算为,它的邻居(们)的最大开火速率的1%。

下面的支持例程被用在以上代码 (中)。

名字	解释
kthScore(cols,k)	给定列列表cols,返回第k高的(译:还是前k个) overlap值
updateActiveDutyCycle©	计算一个移动平均值,在抑制后,c 被激活的频率
updateOverlapDutyCycle©	计算一个移动平均值,在 c 有比miniOverlap 大的 overlap 的频率
averageReceptiveFieldSize©	全部列的已连接的接收域尺寸的平均半径。一个列的已连接的接收域尺寸只包含该已连接的 synapse(们)（这些synapse的permanence值>=connectedPerm）。这被用于决定在列之间的兄弟(横向) 抑制的范围。
maxDutyCycle©	在一个给定列列表 (中),返回,该列(们)的最大激活负载周期。
increasePermanences(c,s)	按一个标量因子 s,增加在列 c 中的每一个 synapse的紧结值。
boostFunction©	返回一个列的鼓励值。该鼓励值是一个 >=1 的标量。如果 activeDutyCycle© 高于 miniDutyCycle©, 该鼓励值是1。一旦该列的 activeDutyCycle 开始下落到他的 minDutyCycle 之下, 该鼓励值线性地增长。

4 临时相似则同表示实现、伪码

这章包含了临时相似则同表示功能的第一个实现的详细伪码。给该代码的输入是activeColumns(t),已被空间相似则同表示计算过了。在当前时刻t，对每个细胞,该代码计算激活和预测状态。对每个细胞的激活状态、预测状态的逻辑OR操作形成了临时相似则同表示的给下一级的输出。
伪码被分离成按序列出现的三个独立的阶段：
阶段1：对每个细胞，计算激活状态，activeState(t)。
阶段2：对每个细胞，计算预测状态，predictiveState(t)。
阶段3：更新synapses
只有在学习的时候,才需要阶段3。然而，不像空间相似则同表示，当启用学习,阶段1和阶段2 包含一些学习-特定的操作。既然临时相似则同表示是比空间相似则同表示显著的更复杂，我们首先列出只-推理版本的临时相似则同表示，紧接着一个版本,组合推理和学习。一些该实现细节、术语、支持例程的描述是在本章结尾，在伪码之后。

- 临时相似则同表示伪码：只推理

- 阶段1

对每个细胞,第一解阶段计算激活状态。对每个赢的列,我们决定哪些细胞应该变成激活的。如果如何一个细胞预测自下而上的输入（即,由于在先前一个时间步的一个序列段, 他的 predictiveState是1），然后这些细胞变成激活的（行4-9）。如果该自下而上的输入是非预期的（即,没有细胞有 predictiveState输出开），那么在该列中的每个细胞变成激活的（行11-13）。

01. for c in activeColumns(t):
02. 
03.     buPredicted = false
04.     for i = 0 to cellPerColumn - 1
05.         if predictiveState(c,i,t-1) == true then
06.             s = getActiveSegment(c,i,t-1,activeState)
07.             if s.sequenceSegment == true then
08.                 buPredicted = true
09.                 activeState(c,i,t) = 1
10.                 
11.     if buPredicted == false then
12.         for i = 0 to cellPerColumn -1 
13.             activeState(c,i,t) = 1

- 阶段2

对每个细胞,第二个阶段计算预测状态。如果它的segments的任何一个变成激活的,一个细胞会变打开它的predictiveState，即,由于喂-前输入,如果足够个它的horizontal连接(们) 当前开火。

14. for c,i in cells
15.     for s in segments(c,i)
16.         if segmentActive(c,i,s,t) then
17.             predictiveState(c,i,t) = 1

- 临时相似则同表示伪码：联合推理和学习

- 阶段1

第一阶段计算在一个赢的列中的每个细胞的 activeState。对于这些列，该代码进一步的,对每个列选择一个细胞,作为学习的细胞（learnState）。逻辑如下：如果任何一个细胞预测了自下而上的输入（即,由于一个序列段,它的predictiveState输出是1 ），然后这些细胞变成激活的（行23-27）。如果该段变成激活的,从用 learnState开选出的细胞，该细胞被选作学习细胞（行28-30）。如果该自下而上的输入是非预期的，最佳匹配细胞被选chosen as学习细胞（行36-41）,并且一个新段被加到该细胞中。

18. for c in activeColumns(t)
19. 
20.     buPredicted = false
21.     lcChosen = false
22.     for i = 0 to cellPerColumn - 1
23.         if predictiveState(c,i,t-1) == true then
24.             s = getActiveSegment(c,i,t-1,activeState)
25.             if s.sequenceSegment == true then
26.                 buPredicted = true
27.                 activeState(c,i,t) =1 
28.                 if segmentActive(s,t-1,learnState) then
29.                     lcChosen = true
30.                     learnState(c,i,t) = 1
31.                     
32.     if buPredicted == false then
33.         for i = 0 to cellPerColumn -1
34.             activeState(c,i,t) =1 
35.             
36.     if lcChosen == false then
37.         l,s = getBestMatchingCell(c,t-1)
38.         learnState(c,i,t) = 1
39.         sUpdate = getSegmentActiveSynapses(c,i,s,t-1,true)
40.         sUpdate.sequenceSegment = true
41.         segmentUpdateList.add(sUpdate)

- 阶段2

对每个细胞,第二阶段计算预测状态。如果该细胞的段变成激活的,该细胞会打开它的预测状态输出，即,如果足够的它的横向输入当前是激活的,由于喂-前输入。在这个情况下，该细胞排队下列变化：a) 强化,当前激活段（行47-48），并且 b) 强化一个段,该段已预测了此激活，即,一个段,该段有一个（潜在的弱的）匹配到激活,在先前时间步（行50-53）。

42. for c,i in cells
43.     for s in segments(c,i)
44.         if segmentActive(s,t,activeState) then
45.             predictiveState(c,i,t) = 1
46.             
47.             activeUpdate = getSegmentActiveSynapses(c,i,s,t,false)
48.             segmentUpdateList.add(activeUpdate)
49.             
50.             predSegment = getBestMatchingSegment(c,i,t-1)
51.             predUpdate = getSegmentActiveSynapses(c,i,predSegment,t-1,true)
52.             
53.             segmentUpdateList.add(predUpdate)

- 阶段3

第三个、最后一个阶段实际上在实施学习。在这个阶段,已被排队的段更新实际被执行,一旦我们获得喂-前输入,且该细胞被选作一个学习的细胞（行56-57）。否则，如果该细胞曾经由于任何原因而停止预测，我们否定地强化这些段（行58-60）。

54. for c,i in cells
55.     if learnState(s,i,t) == 1 then
56.         adaptSegments(segmentUpdateList(c,i),true)
57.         segmentUpdateList(c,i).delete()
58.     else if predictiveState(c,i,t) == 0 and predictiveState(c,i,t-1) == 1 then
59.         adaptSegments(segmentUpdateList(c,i),false)
60.         segmentUpdateList(c,i).delete()
61.

- 实现细节和术语

在这一段,我们描述我们的临时相似则同表示的实现和术语的一些细节。每个细胞用两个数索引：一个列索引c，一个细胞索引i。细胞们维护一各dendrite段列表，在那,每个段包含一个synapse列表加每个synapse的一个紧结值。对一个细胞的synapses的修改被标记为临时的,直到该细胞变成激活的从喂-前输入。这些临时的改变被维护在segmentUpdateList。每个段也维护一个boolean标志sequenceSegment，指示在下一个时间步,是否该段预测喂-前输入。
潜在synapses的实现是不同于空间相似则同表示中的。在空间相似则同表示中，潜在synapses的完整列表被表示为一个明确的列表。在临时相似则表示中，每个段有它自己的（可能很大）潜在synapses列表。在实践中,为每个段,维护一个长列表是计算昂贵的和内存密集的。因此在临时相似则同表示中，我们随机地添加激活的synapses到每个段,在学习期间（被参数newSynapseCount控制）。这个优化有一个类似的效果和维护潜在synapses完整列表，但是每个segment的列表是远远更小的,当仍然维护学习的新临时模式的可能性。
伪码也用一个小状态机去追踪细胞状态在不同时间步。我们维护三个不同状态,对每个细胞。数组activeState和predictiveState追踪在每个时间步的每个细胞的激活和预测状态。数组learnState决定哪个细胞的输入被适用,在学习期间。当一个输入时非预期的，在一个特定列中的所有该细胞变成激活的,在该相同的时间步。只有这些细胞之一（该细胞最匹配输入）使它的learnState打开。我们只加从让learnState设置为1的cells的 synapses（这避免老过表示一个全的激活列,在dendritic segments）。
以下数据结构被用在临时相似则同表示的伪码中：

名字	解释
cell(c,i)	一个细胞列表，用i和c索引
cellsPerColumn	在每个列中的细胞个数
activeColumns(t)	由于自下而上的输入而赢的列下标列表（这是空间相似则同表示的输出）
activeState(c,i,t)	一个boolean向量,每个细胞一个数字。它表示,在时刻t,给定当前喂-前输入,过去临时上下文,列c细胞i的激活状态。activeState(c,i,t)是从列c细胞i,在时刻t 的贡献。如果为1，该细胞有当前喂-前输入,也有一个近似的临时上下文。
predictiveState(c,i,t)	一个boolean向量,每个细胞一个数字。它表示,在时刻t,给定其他列的自下而上的激活,过去临时上下文,列c细胞i的预测。predictiveState(c,i,t)是从列c细胞i,在时刻t 的贡献。如果为1，该细胞预测喂-前输入,在当前临时上下文。
learnState(c,i,t)	一个boolean,指示是否列c细胞i 被选作学习细胞
activationThreshold	一个段的激活阈值。如果在一个段中的激活已连接的synapse个数比 activationThreshold 大，称该段被激活了
learningRadius	在一个临时相似则同表示细胞周边的区域,从该区域,该细胞能获得横向连接
initialPerm	对一个synapse的初始紧结值
connectedPerm	如果一个synapse的紧结值比此值大，称作已连接
minThreshold	学习的最小段激活
newSynapseCount	在学习期间,添加到一个段的synapses的最大个数
permanenceInc	当基于激活的学习出现,synapses的紧结值的增量
permanenceDec	当基于激活的学习出现,synapses的紧结值的减量
segmentUpdate	持有需要去更新一个给定段的三块信息：a)段索引（如果他是一个新段,则为-1），b) 存在的激活的synapses的一个列表，c) 一个标志,指示是否此段应该被标记为一个序列段（默认为false）
segmentUpdateList	segmentUpdate结构列表。 segmentUpdateList(c,i)是列c细胞i的变更列表

下面的支持例程被用在以上代码中：

名字	解释
segmentActive(s,t,state)	由于时刻t的state(导致)该段是激活的, 如果在段s上的已连接的synapse个数大于activationThreshold,则此例程返回true。参数state可以是activeState,或者learnState
getActiveSegment(c,i,t,state)	对给定列c细胞i，返回一个段的segmentActive(s,t,state)为true的段下标。如果多段是激活的，序列segments是被偏爱的。否则，偏爱带有最多激活的段。
getBestMatchingSegment(c,i,t)	在时刻t,对给定列c细胞i，找到带有最大激活synapses数目的段。在找到最匹配,此例程是侵略性的。synapses的紧结值允许低于connectedPerm。激活的synapses个数允许低于activatonThreshold，但是必须高于minThreshold。此例程返回该段下标。如果没找到(任何)段，则返回下标-1。
getBestMatchingCell©	对于给定列c，返回带有最匹配段（如上定义）的细胞。如果没有细胞有一个匹配段，则返回带有最少段个数的细胞。
getSegmentActiveSynapses(c,i,t,s,newSynapses=false)	对段s,返回包含一个计划的修改(们) 的一个segmentUpdate数据结构。在时间步t,让activeSynapses成为激活的synapses列表,(在该列表中)起源细胞有他们的activeState输出为1.。（如果因该段不存在而 s为-1,则该列表为空。）newSynapses是一个可选参数,默认为false。如果newSynapse是true，那么newSynapseCount-count(activeSynapses)个synapses被加到activeSynapses中。这些synapses是在时间步t,有learnState输出为1 的细胞集合中随机地选出的。
adapatSegments(segmentList,positiveReinforcement)	该函数遍历一个segmentUpdate列表,并强化每一个段。对每一个segmentUpdate元素，一下修改被执行。如果positiveReinforcement是true,那么在激活列表中的synapses的紧结值按permanenceInc增加。所有其他synapses的紧结值按permanenceDec降低。如果positiveReinforcement是false，那么在激活列表中的synapses紧结值按permanenceDec降低。在这步骤之后，在segmentUpdate中的任何synapses如果已经做过了(刚刚的操作),则用initialPerm加到紧结值。

Hierarchical temporal memory

文章目录

1 多级临时记忆 概要

- 多级临时记忆 原理

- 分层

- 区

- 稀疏分布表示

- 时间角色

- 学习

- 推理

- 预测

- 预测 是 连续的。

- 预测 出现 在 该hierarchy 的 每个 层 的 每个 区。

- 预测 是 上下文 敏感的。

- 预测 导致 稳定

- 一个 预测 告诉 我们,是否 一个 新 输入 是 期待的 或 非 期待的

- 预测 帮助 使 该 系统 更 健壮,对 噪音

- 行为

- 过程,朝 多级临时记忆 实现

2 多级临时记忆 皮层 学习 算法

- 术语

- 细胞 状态

- dendrite(译者注:非线性函数、激活函数) 段(们)

- synapse(译者注:权重)(们)

- 概要

- 共享的 概念

- 二值 权重

- 性能

- dendrit 段(们)

- 潜在 synapse(们)

- 学习

- 空间相似则同表示 概念

- 1 用 全部 列

- 2 维持 希望的(确定的) 密度

- 3 避免 平凡 模式

- 4 避免 额外 连接

- 自 调整 感受野(易接受的 域)

- 空间相似则同表示 细节

- 时刻相似则同表示 概念

- 时刻相似则同表示 细节

- 第一 序 versus 变 序 序列、预测

3 空间 池化 实现、伪码

初始化

阶段1:覆盖

阶段2:抑制

阶段3:学习

支持的 数据结构 和 例程

4 临时相似则同表示 实现、伪码

- 临时相似则同表示 伪码：只 推理

- 阶段1

- 阶段2

- 临时相似则同表示 伪码：联合 推理 和 学习

- 阶段1

- 阶段2

- 阶段3

- 实现细节和术语

附录 A：生物 神经元 、多级临时记忆 细胞 比较

- 生物神经元

- 简单 人工 神经元

- 多级临时记忆 细胞

- 建议 阅读

附录 B: 新大脑皮层、多级临时记忆 区 比较

- 新大脑皮层 电路

- 为什么 有 层 和 列？

- 假设,关于 不同 层(们) 做 什么

- 总结

术语

猜你喜欢

1 多级临时记忆概要

- 多级临时记忆原理

- 预测是连续的。

- 预测出现在该hierarchy 的每个层的每个区。

- 预测是上下文敏感的。

- 预测导致稳定

- 一个预测告诉我们,是否一个新输入是期待的或非期待的

- 预测帮助使该系统更健壮,对噪音

- 过程,朝多级临时记忆实现

2 多级临时记忆皮层学习算法

- 细胞状态

- 共享的概念

- 二值权重

- 空间相似则同表示概念

- 1 用全部列

- 2 维持希望的(确定的) 密度

- 3 避免平凡模式

- 4 避免额外连接

- 自调整感受野(易接受的域)

- 空间相似则同表示细节

- 时刻相似则同表示概念

- 时刻相似则同表示细节

- 第一序 versus 变序序列、预测

3 空间池化实现、伪码

支持的数据结构和例程

4 临时相似则同表示实现、伪码

- 临时相似则同表示伪码：只推理

- 临时相似则同表示伪码：联合推理和学习

附录 A：生物神经元、多级临时记忆细胞比较

- 简单人工神经元

- 多级临时记忆细胞

- 建议阅读

附录 B: 新大脑皮层、多级临时记忆区比较

- 新大脑皮层电路

- 为什么有层和列？

- 假设,关于不同层(们) 做什么