译者前言
缘起:这是一篇文献翻译,这份文献是我在2021年国庆假期,阅读完冯天瑾《智能学简史》之后找到的一篇资料。那时我的生活四处碰壁,几乎一切事情都让我感到挫败,心情十分沮丧,我试图调整生活的状态,希望在读书和学习中逃避现实。我缺少引导,不知道该学什么,也不知道该怎么学,只好在图书馆里找书乱学(苦笑),翻译这篇文章的原因可能仅仅是因为当时觉得翻译这个工作很酷。后来的事实证明,翻译文献是一件极其繁琐无味的事情,而且翻译这篇古老的文章压根没有什么学术意义(苦笑)。我翻译了几页内容,将它发布到微信公众号上(原文连接),然后停止了翻译,一半的原因是这实在很枯燥,另一半的原因是:国庆假期结束了(苦笑)。然而我一直都没有忘记这件事,现在有了chatGPT等多种高效工具的协助,我可以比较容易地完成这篇文献翻译了。总而言之,这篇文档没有什么学术价值,但却是我曾经试图努力学习的一个见证,裹挟着我青春时期的迷茫。
1958年,美国著名心理学家 弗兰克·罗森布拉特(Frank Rosenblatt) 在《心理学评论》上发表著名论文《感知机:大脑中信息存储和组织的概率模型》,推广了MP模型,提出了著名的感知器模型(脑感知模型),打开了深入研究人工神经网络的理论、功能与技术应用的大门,并成为20世纪80年代影响巨大的多层传感器的基础。——冯天瑾.2007.《智能学简史》.北京:科学出版社
Rosenblatt 于 1958 年在 Psychological Review 上发表的论文《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》是人工智能和神经网络领域的奠基性文献之一。这篇论文详细描述了感知机(Perceptron)这一模型及其在信息处理中的潜力。
文章提到的感知机是一种受生物神经元启发的数学模型,用于模拟大脑的信息存储和处理过程。Rosenblatt 提出了这种模型的结构,主要包括输入层、权重、加权求和机制以及非线性激活函数。输入一组特征(如从视觉或其他感官输入的信号),每个输入与一个权重值相乘,使用激活函数对加权求和结果应用阈值,输出二元结果(例如 0 或 1)。论文提出了一种简单的权重调整规则,即感知机学习规则。这种规则通过增量地调整权重来最小化分类错误,具体为:$w_{new} = w_{old} + \Delta w$ ,其中,$\Delta w$ 是基于输入和目标输出的误差进行更新的。Rosenblatt 证明了感知机可以成功学习并分类线性可分的任务。这为机器学习奠定了理论基础。尽管感知机理论强大,但论文中未提及感知机无法解决非线性可分问题(如 XOR 问题)。这一局限性后来被 Marvin Minsky 和 Seymour Papert 在 1969 年的著作中深入讨论,导致了早期神经网络研究的低潮期。(参考阅读前面的博客:神经网络的发展历史) Rosenblatt 的研究激发了对生物神经系统和计算模型之间关系的深入探索。虽然单层感知机受到限制,但多层网络和反向传播算法的提出突破了其局限,使得神经网络在20世纪80年代重新兴起。总而言之,这篇论文是计算机科学、心理学和神经科学交叉领域的一块里程碑,尽管模型简单,但其意义深远。
Rosenblatt F.. The perceptron: A probabilistic model for information storage and organization in the brain.[J]. Psychological Review, 1958, 65(6) : 386-408.
MP模型:脑模型,1943年由美国生理学家麦克卡洛和数学家、逻辑学家沃尔特·匹茨共同提出的脑模型,指出“任何可计算函数、所有的逻辑关系,都可以用神经元网络(神经计算)来实现;所有逻辑连接符(与、或、非等)都可以用简单的神经元网络实现。”
以下翻译仅供学习或学术交流使用,版权归原作者所有。
本篇译文未经仔细校对,可能存在一些错误,需要参照原文进行阅读。
感知机:一种用于信息存储和组织的概率模型
弗兰克·罗森布拉特(Frank Rosenblatt)
心理学评论 Psychological Review,1958年,第65卷,第6期,386-408页。
如果我们最终要理解更高等生物体感知识别、概括、回忆和思考的能力,我们必须首先回答三个基本问题:
- 物质世界的信息是如何被生物系统感知或察觉的?
- 信息以什么样的形式被存储或记忆?
- 存储中的信息或记忆如何影响识别和行为?
第一个问题属于感官生理学(sensory physiology)领域,也是唯一一个已获得可观的理解的问题。这篇文章将主要关注第二和第三个问题,这些问题仍然存在大量假设,而神经生理学提供的相关事实尚未被整合成一个可接受的理论。
关于第二个问题,有两种可选择的立场。第一种观点认为,感觉信息的存储是以编码或图像形式进行的,在感觉刺激与存储模式之间存在某种一对一的映射关系。根据这一假设,如果我们理解了神经系统的“编码”或“接线图”,理论上应该能够通过重建“记忆痕迹”来发现一个生物体记住了什么,这就像我们可能制作出一张摄影底片,或者像转换数字计算机“存储器(memory)”中的电荷模式一样。这种假设因其简洁性和易于理解而具有吸引力,围绕编码的表征性记忆这一思想,已经发展出了一系列理论大脑模型(2,3,9,14)。另一种观点源于英国经验主义哲学的传统,有人假设刺激的图像可能永远不会被真正记录下来,中枢神经系统只是作为一个复杂的开关网络,在这个网络中,记忆的保持表现为活动中心之间新的连接或通路。在这一观点的许多最新研究进展中(例如Hebb的“细胞装配”,Hull的“皮层预期目标反应”),与刺激相关的“反应”可能完全存在于中枢神经系统内部。在这种情况下,反应代表着一个“意识”而不是一个动作。该观点的一个重要特征是,刺激永远不会简单地映射到记忆中,也没有某种代码可以允许其稍后重建。无论存储的信息如何,它必定以某种方式存储为对特定反应的偏好;换句话说,信息是通过连接或联想的形式存在的,而不是通过拓扑表征。(在本论文的其余部分,“反应”这一术语应理解为任何可区分的有机体状态,这些状态可能涉及或不涉及外部可检测的肌肉活动。例如,中枢神经系统中某些细胞核的激活也可以构成一个反应。)
与信息存储方法的这两个观点相对应,关于第三个问题——存储信息对当前活动的影响方式——也存在两个假设。对于“编码记忆理论”学者来说,他们不得不得出结论:任何刺激的识别都涉及存储内容与外来感觉模式的匹配或系统比较,以确定当前刺激是否曾经出现过,并且确定合适的反应。另一方面,经验主义传统的学者本质上将第三个问题的答案与他们对第二个问题的答案结合起来:既然存储的信息以神经系统中新连接或传输通道的形式存在(或以类似新连接的功能等价条件存在),那么新的刺激将利用这些已创建的新路径,自动激活对应的反应,而无需任何单独的识别或识别过程。
本文提出的理论,在这些问题上采纳了经验主义或“连接主义”(connectionist)的立场。这一理论是通过一种被称为感知机(Perceptron)的假想神经系统或机器所构建起来的。感知机旨在展示一些智能系统的基本特性,而不会过于深入地陷入特定生物有机体的特殊且通常未知的条件中。感知机与生物系统之间的类比对读者来说应该是显而易见的。
在过去的几十年里,符号逻辑、数字计算机和开关理论的发展让许多理论家感受到神经元与计算机构建的简单开关单元之间的功能相似性,并为用这些元素表示高度复杂的逻辑功能提供了必要的分析方法。因而产生了大量的脑模型,这些模型实际上只是用逻辑装置执行特定算法(表示“回忆”、刺激比较、转换以及各种类型的分析)以响应刺激序列——例如,Rashevsky(14)、McCulloch(10)、McCulloch & Pitts(11)、Culbertson(2)、Kleene(8)和Minsky(13)等人的研究。少数理论家,如Ashby(1)和冯·诺依曼(17,18),则更关注如何使一个不完美的神经网络(其中包含许多随机连接)可靠地执行那些可以通过理想化接线图表示的功能。不幸的是,符号逻辑和布尔代数的语言不太适合这种研究。针对在那些只能描述粗略组织结构且精确结构未知的系统中进行数学分析的需求,作者提出了基于概率论而非符号逻辑的模型。
上面提到的理论家们主要关注的问题是:如何使某些形式的物理系统实现感知和回忆等功能,而不是大脑是如何实际完成这些工作的。已经提出的模型在一些重要方面都存在缺陷(如缺乏等电位性、缺乏神经经济性、过度具体化的连接和同步要求、对细胞放电所需刺激的过度具体化、假设与神经学相关性未知的变量或功能特征等),这些都无法与生物系统相匹配。
这种方法的支持者认为,一旦证明了任何种类的物理系统可以实现感知、识别刺激或执行其他类似大脑的功能,那么只需要对现有原理进行细化或修改,就可以理解更现实的神经系统的工作原理,并消除上述缺陷。而作者则认为,这些缺陷表明,单纯对已有原理的细化或改进永远无法解释生物智能;显然存在本质上的区别。本文将要总结的统计可分性理论(参见15)似乎在理论上提供了解决这些困难的方案。
那些理论家——如赫布(Hebb)(7)、米尔纳(Milner)(12)、埃克尔斯(Eccles)(4)、哈耶克(Hayek)(6)——他们更直接地关注生物神经系统及其在自然环境中的活动,而不是形式上地分析相似的机器,通常在他们的表述上较不精确,分析也远未严谨,因此常常很难评估他们所描述的系统是否真的能够在现实的神经系统中运作,以及其必要和充分条件是什么。这里再次出现的一个主要障碍是,缺乏类似于网络分析学中布尔代数那样高效的分析语言。这些理论家的贡献或许应该被看作是对需要寻找和研究的事物的建议,而不是自成体系的完整理论。由此观之,最具启发性的工作是由Hebb和Hayek完成的下面这些理论。
由Hebb(7)、Hayek(6)、Uttley(16)和Ashby(1)阐述的理论,是感知机理论的基础,可以总结为以下假设:
- 神经系统中与学习和识别相关的物理连接在不同生物之间并非完全相同。出生时,最重要的网络的构建在很大程度上是随机的,只受到最少的遗传约束。
- 原始的神经元连接系统具有一定的可塑性;在经历一段时间的神经活动后,某一组神经元受到刺激后引发另一组神经元反应的概率可能会发生变化,这是由于神经元本身发生了一些相对持久的变化。
- 通过接触大量刺激样本,那些最“相似”(在某种意义上必须根据特定的物理系统来定义)的刺激会倾向于形成到同一组反应神经元的路径。而那些明显“不相似”的刺激则会倾向于与不同的反应神经元组形成连接。
- 正强化和/或负强化(或用于此功能的刺激)可能会促进或阻碍当前正在进行的连接形成过程。
- 在这样的系统中,相似性在神经系统的某个层面上表现为相似刺激物激活同一组神经元的趋势。相似性不是特定形式或几何类别刺激的必然属性,而是取决于感知系统的物理组织,该组织通过与给定环境的交互作用而演化。系统的结构以及刺激-环境的生态关系,将影响并在很大程度上决定感知世界被划分成的类别。
感知器的组织
一种典型的光感知机(感知机响应光学模式作为刺激)的组织如图1所示。其组织规则如下:
- 刺激作用在视网膜上的感觉单元($S$点),这些感觉单元假定在某些模型中是按全有或全无的方式响应,或者在其他模型中按与刺激强度成比例的脉冲幅度或频率响应。在这里考虑的模型中,假设使用全有或全无的响应方式。
- 脉冲传递到一组联接细胞($A$单元)所在的“投影区”($A_I$)。在某些模型中,投影区可能被省略,视网膜直接与联接区($A_{II}$)连接。投影区中的每个细胞都会接收来自感觉点的多个连接。传递脉冲到特定A单元的一组S点将被称为该A单元的起源点。这些起源点可能对A单元产生兴奋性或抑制性的作用。如果兴奋性和抑制性脉冲强度的代数和大于或等于A单元的阈值($\theta$),则该A单元会激活,仍然是按全有或全无的方式(或者,在一些此处不考虑的模型中,频率取决于接收到的脉冲净值)。投影区内A单元的起源点往往围绕着某个中央点聚集或集中,每个A单元对应一个中央点。起源点的数量会随着A单元所对应中央点的视网膜距离的增加而呈指数方式下降(这种分布似乎得到了生理学证据的支持,并在轮廓检测中起到了重要的功能作用)。
- 在投影区和联接区($A_{II}$)之间,假设连接是随机的。也就是说,$A_{II}$组中的每个$A$单元都会接收来自$A_{I}$组起源点的若干纤维,但这些起源点在投影区内是随机分布的。除了连接的分布外,$A_{II}$单元与 $A_{I}$ 单元完全相同,并且在类似的条件下作出反应。
- “反应”$R_1、R_2、... R_n$是以与A单元类似的方式响应的细胞(或细胞组)。每个反应通常有许多起源点,这些起源点在$A_{II}$ 组内随机分布。传递脉冲到特定反应的一组A单元将被称为该反应的源集(Source-set)。每个反应的源集与其在A系统中的起源点集合是相同的。图1中的箭头表示网络中脉冲传递的方向。请注意,直到 $A_{II}$ 之前,所有的连接都是单向的,并没有反馈。当我们讨论最后一组连接时,即$A_{II}$与R单元之间的连接,它们是双向建立的。
大多数感知机模型中,反馈连接的规则可以是以下两种备选方式:
- (a) 每个响应都与自身源集细胞有兴奋性反馈连接,或
- (b) 每个响应都与自身源集的补集有抑制性反馈连接(即,它倾向于抑制任何没有向其传递脉冲的联接细胞的活动)。
从解剖学上看,第一个规则似乎更合理,因为R单元可能位于与其相应源集相同的皮层区域,导致R单元与适当源集的A单元之间的相互兴奋更为可能。然而,第二种规则(b)更易于分析,因此将假定此处要评估的大多数系统都是符合规则(b)的。
以这种方式组织的系统中的反应是互斥的。如果R1发生,它将倾向于抑制R2,并且还会抑制R2的源集。同样,如果R2发生,它将倾向于抑制R1。如果来自一个源集的所有A单元的总脉冲强度或频率大于来自对立反应的脉冲,则第一个反应将趋向于占优,并最终发生。如果这样的系统能够学习,那么就必须能够修改A单元或其连接,使得一种类别的刺激倾向于在R1源集中激发更强的脉冲,而另一种(不相似的)类别的刺激则倾向于在R2源集中激发更强的脉冲。
假设每个A单元传递的脉冲可以通过一个值V来表征,这个值可以是幅值、频率、延迟或完成传输的概率。如果一个A单元具有较高的值,那么它所有输出的脉冲将被认为更加有效、强大,或者更可能到达终端突触,而来自低值A单元的脉冲则相反。A单元的值被认为是一个相对稳定的特性,可能取决于细胞和细胞膜的代谢状态,但它并不是绝对不变的。通常情况下,活动期会增加细胞的值,而在不活动的情况下,该值可能会衰减(在一些模型中)。最有趣的模型是那些假设细胞之间相互竞争代谢材料的模型,其中更活跃的细胞会以不活跃细胞为代价获得更多的代谢材料。在这样的系统中,如果没有活动,所有细胞将保持在相对稳定的状态,并且(不论活动如何)系统的净值将始终保持恒定。本文定量研究了三种不同的值动态系统,它们的主要逻辑特征在表1中进行了比较。在 $\alpha$ 系统中,每个活跃细胞在每次脉冲后获得一定的增值,并且这一增值会永久保持。在 $beta$ 系统中,每个源集允许一定的恒定增值速率,增量会按源集细胞的活动分配。在 $\gamma$ 系统中,活跃细胞会以其源集内不活跃细胞的代价获得增值,从而使得源集的总值始终保持不变。
图3B后显性阶段(postdominant phase),优势子集抑制竞争对手的集合,抑制性连接仅显示为R1。
主导阶段的分析
这里讨论的感知机假定A单元的激活始终有一个固定的阈值$\theta$。这样的系统将被称为固定阈值模型,区别于连续传感器模型,其中A单元的响应是冲击刺激能量的某种连续函数。
为了预测固定阈值感知机的学习曲线,已经发现两个变量是主要重要的。它们定义如下:
- $P_a$ = 由给定大小的刺激激活的A单元的预期比例
- $P_c$ = 在响应某一给定刺激 $S_1$ 的A单元,给定条件下它还会对另一个刺激 $S_2$ 做出响应的条件概率。
可以证明(Rosenblatt, 15)当视网膜的大小增加时,S点的数量($ N$)很快不再是一个显著的参数,而 $P_a$ 和 $P_c$ 的值趋向于视网膜中有无限多个点时的值。因此,对于一个大的视网膜,公式如下:
where
且
($e$ 和 $i$ 是A单元从刺激接收到的兴奋性和抑制性成分。如果代数和 $\alpha = e + i$ 等于或大于 $\theta$,则假定A单元会响应。)
其中:
且:
$R$、$L$ 和 $G$ 指定了两个刺激及其视网膜重叠的情况。$l_e$ 和 $l_i$ 分别是当刺激 $S_1$ 被刺激 $S_2$ 替换时,A单元“丧失”的兴奋性和抑制性起源点的数量;$g_e$ 和 $g_i$ 则是在刺激 $S_1$ 被 $S_2$ 替换时,A单元“获得”的兴奋性和抑制性起源点的数量。公式中的求和运算在给定的限制范围内进行,并受到附加条件 $e - i - l_e + l_i + g_e - g_i \geq \theta$ 的约束。
$P_c$ 的行为在图5和图6中得到了说明。图5中的曲线可以与图4中的 $P_a$ 曲线进行比较。注意到,随着阈值的增加,$P_c$ 的值比 $P_a$ 更明显地下降。当抑制性连接的比例增加时,$P_c$ 也会减少,就像 $P_a$ 一样。图5是为非重叠刺激计算的,表明即使刺激完全不重叠,且没有共同照亮视网膜上的任何点,$P_c$ 仍然大于零。在图6中,展示了刺激之间不同程度的重叠对 $P_c$ 的影响。在所有情况下,随着刺激趋于完美的相似性,$P_c$ 的值会趋向于1。对于较小的刺激(虚线曲线),$P_c$ 的值低于大刺激的情况。类似地,高阈值的情况下,$P_c$ 的值低于低阈值的情况。$P_c$ 的最小值将等于:
感知机学习的数学分析
在主导阶段(predominant phase),感知机会响应刺激,系统中的部分A单元(分布在整个系统中)会响应刺激,随后很快进入后显性响应(postdominant response),在该阶段,活动局限于单一的源集,其他源集则被抑制。已经研究了两种可能的系统,用于确定后主导阶段的“主导”反应。在第一种系统(均值判别系统,或 $\mu$-系统)中,输入具有最大均值的反应首先响应,并获得轻微的优势,因此它会迅速变得主导。在第二种情况下(总和判别系统,或 $\Sigma$-系统),输入具有最大净值的反应获得优势。在大多数情况下,响应均值的系统比响应总和的系统更具优势,因为均值不太受来自不同源集的 $P_a$ 随机变化的影响。然而,在$\gamma$-系统(见表1)的情况下,$\mu$-系统和$\Sigma$-系统的性能是相同的。
我们已经指出,感知机预计通过联接单元的活动导致值的变化,从而学习或形成关联。在评估这种学习时,可以考虑两种假设的实验类型。第一种情况是,感知机暴露于一系列刺激模式(这些刺激模式可能随机地出现在视网膜的不同位置),并在每种情况下“被迫”给出所需的反应。(这种反应的强迫被假定为实验者的特权。在用于评估试错学习的实验中,使用更复杂的感知机时,实验者不会强迫系统按照期望的方式响应,而只是当反应正确时给予正强化,反应错误时给予负强化。)在评估在这个“学习序列”中已经发生的学习时,假设感知机处于当前状态,“冻结”其状态,不再允许值的进一步变化,并且再次以完全相同的方式呈现相同的刺激序列,使得刺激在视网膜上的位置完全一致。此时,感知机偏向正确反应(即在学习序列中先前得到强化的反应)的概率被称为 $P_r$,即在两个备选反应之间选择正确反应的概率。
在第二种实验中,学习序列仍与之前完全相同,但评估感知机表现时,使用一个新的刺激序列,该序列中的刺激可能来自先前经历过的同一类刺激,但不一定与先前的刺激完全相同。新的测试序列假定由投影到随机视网膜位置的刺激组成,这些位置是独立选择的,不与学习序列中的刺激位置相关。测试序列中的刺激大小或旋转位置可能也与之前经历的刺激不同。在这种情况下,我们关注的是感知机对所代表的刺激类别给出正确反应的概率,无论该刺激是否曾经出现过。这个概率被称为 $P_g$,即正确一般化的概率。与 $P_r$ 一样,$P_g$ 实际上是指在一个备选反应对中,正确反应的偏向概率;每次只考虑一对反应,且正确的响应偏向并不意味着在其他反应对中偏向的正确反应是一样的。正确反应在所有备选反应中被优先选择的概率被指定为 $P_R$ 或 $P_G$。
在所有被研究的情况中,如果适当的常数被代入,则一个通用方程式能很好地近似 $P_r$ 和 $P_g$。该方程的形式如下:
其中:
$\phi(Z) \text{是从} -\infty \text{到} Z \text{的正态曲线积分} $
并且,
如果 $R_1$ 是“正确”反应,而 $R_2$ 是正在考虑的备选反应,公式4是当学习期间每个反应展示 $n_{s_r}$ 次刺激后,$R_1$ 会优于 $R_2$ 的概率。$N_e$ 是每个源集中的“有效”A单元的数量;即,连接到两个反应中不共享的A单元的数量。那些在两个反应中共享的单元对值平衡的两边贡献相同,因此不会影响偏向某个反应的净值。$N_{a_r}$ 是响应测试刺激的源集中的活跃单元的数量,$P(N_{a_r} > 0)$ 是指“正确反应”(约定为 $R_1$ 反应)源集中的有效单元被激活的概率。
在 $P_g$ 的情况下,常数 $c_2$ 总是等于零,其他三个常数与 $P_r$ 相同。四个常数的值依赖于物理神经网络(感知机)的参数以及刺激环境的组织。
最简单的情况是分析感知机在“理想环境”中展示的刺激,在这个环境中刺激是随机分布的光点,没有试图根据内在相似性对刺激进行分类。因此,在一个典型的学习实验中,我们可能向感知机展示1,000个由随机光点组成的刺激,并且我们可能任意地将前500个刺激的反应 $R_1$ 强化为“正确”反应,后500个刺激的反应 $R_2$ 强化为“错误”反应。这个环境仅在分析的意义上是“理想的”;它是一个便于分析的人工环境,并不代表感知机的最佳表现。在理想环境的情况下,常数 $c_1$ 总是等于零,因此在 $P_g$ 的情况下(其中 $c_2$ 也是零), $Z$ 的值将为零,而 $P_g$ 不可能超过随机期望的0.5。然而,对于这些条件下的 $P_r$ 的评估,则揭示了alpha系统、beta系统和gamma系统之间的差异(表1)。
首先考虑alpha系统,它是三者中最简单的动态系统。在这个系统中,每当一个A单元在一个单位时间内处于活跃状态时,它将获得一个单位的值。我们假设一个实验,其中 $N_{s_r}$(与每个反应关联的刺激数量)对于所有反应是恒定的。在这种情况下,对于总和系统,
其中,$\omega$ 是与每个A单元连接的反应的比例。如果源集是互斥的,则 $\omega = \frac{1}{N_R}$,其中 $N_R$ 是系统中的反应数量。对于 $\mu$-系统,
通过将 $c_3$ 降至零,$\mu$-系统相对于 $\Sigma$-系统具有明显的优势。图7和图8比较了这些系统的典型学习曲线。图9展示了 $P_a$ 变化对系统表现的影响。
其中,
- $ q $ = $\sigma_{n_{sr}}$ 与 $\bar{n}_{s r}$ 的比例
- $ N_R $ = 系统中的反应数量
- $ N_A $ = 系统中的A单元数量
- $ \omega_c $ = 同时连接到 $R_1$ 和 $R_2$ 的A单元的比例。
对于这个方程式(以及任何在其中将 $n_{s_r}$ 视为随机变量的方程式),有必要在方程4中将 $n_{e_r}$ 定义为该变量在所有反应集上的期望值。
由于系统的净值继续增长,无论系统发生什么,$\beta$-系统的性能会进一步降低。刺激激活的子集的较大净值倾向于放大微小的统计差异,从而导致不可靠的表现。在这种情况下(同样是$\mu$-系统),常数为:
在$\alpha$和$\beta$系统中,响应总和模型的表现会比均值判别模型的表现差。在$\gamma$-系统中,然而,可以证明 $P_{r(\Sigma)} = P_{r(\mu)}$,即无论使用 $\Sigma$-系统还是 $\mu$-系统,性能没有差异。此外,$\gamma$系统的常数,在 $n_{s_r}$ 为变动时,与 $\alpha$ $\mu$-系统的常数相同(当 $n_{s_r}$ 固定时)。这三种系统的性能比较见图10,清晰地展示了 $\gamma$-系统的优势。
这意味着在极限情况下,感知机是否曾经见过某个特定的测试刺激并不重要;如果刺激来自一个分化的环境,无论如何表现都会一样好。
为了评估系统在分化环境中的表现,有必要定义量 $P_{c_{\alpha \beta}}$。这个量被解释为从类别 $\alpha$ 和 $\beta$ 中随机抽取的刺激对之间 $P_c$ 的期望值。特别地,$P_{c 11}$ 是同一类别成员之间的 $P_g$ 的期望值,$P_{c 12}$ 是从类别1中抽取的 $S_1$ 刺激与从类别2中抽取的 $S_2$ 刺激之间的 $P_c$ 的期望值。$P_{c 1x}$ 是类别1成员与从环境中所有其他类别随机抽取的刺激之间的 $P_c$ 的期望值。
如果 $P_{c 11} > P_a > P_{c 12}$,则感知机的极限表现 ($P_{g \infty}$) 将优于随机,并且学习到某个响应 $R_1$ 作为类别1的“正确一般化响应”最终会发生。如果上述不等式不成立,则可能不会有比随机更好的表现,并且类别2的反应可能会发生。可以证明(15),对于我们通常认为是“相似”的大多数简单几何形状,如果系统的参数选择得当,所需的不等式是可以满足的。
对于在分化环境中的$\alpha$-感知机的总和判别版本,当 $n_{s_r}$ 对所有反应固定时,四个常数的表达式如下:
其中:
- $\sigma_s^2 \left(P_{c 1 r}\right)$ 和 $\sigma_a^2 \left(P_{c_{1 x}}\right)$ 表示 $P_{c 1 r}$ 和 $P_{c 1 x}$ 在可能的测试刺激集 $S_t$ 上的方差。
- $\sigma_j^2 \left(P_{c 1 r}\right)$ 和 $\sigma_j^2 \left(P_{c 1 x}\right)$ 表示 $P_{c 1 r}$ 和 $P_{c 1 x}$ 在所有A单元集 $a_j$ 上的方差。
- $\epsilon$ = $P_{c 1 r}$ 和 $P_{c 1 x}$ 的协方差,假定它是可以忽略不计的。
这些表达式中的方差目前尚未进行精确分析,可以将其视为经验变量,并在特定的刺激类别中确定。如果每个方差在每种情况下设定为变量的预期值的一半,则可以获得保守的估计。当给定类别的所有刺激都是相同形状并且在视网膜上均匀分布时,子脚本 $s$ 的方差为零。在这种情况下,$P_{g(\Sigma)}$ 将由相同的常数集表示,除了 $c_2$,它通常等于零。
对于均值判别系统,常数为:
这里省略了一些协方差项,它们被认为是可以忽略不计的。
图11显示了分化环境模型的典型学习曲线,适用于均值判别系统。参数基于方形和圆形辨别问题的测量数据。注意,$P_r$ 和 $P_g$ 的曲线都趋向于相同的渐近线,正如预测的那样。通过在公式9中代入适当的常数,可以获得这些渐近线的值。随着系统中联接单元数量的增加,渐近学习极限迅速接近1,因此,对于一个有几千个单元的系统,在如此简单的问题中,性能的误差应该是可以忽略不计的。
二价体系
在到目前为止分析的所有系统中,主动A单元通过强化或经验获得的值增量始终是正的,意思是活跃的单元始终能够增强其激活所连接的反应的能力。在伽马系统中,虽然某些单元失去值,但这些始终是非活跃单元,而活跃单元则按照其活动速率获得值。在双价系统中,有两种类型的强化(正强化和负强化),活跃单元的值可能增加或减少,这取决于系统的瞬时状态。如果正负强化可以通过外部刺激来控制,那么它们本质上就等同于“奖励”和“惩罚”,并且实验者可以在这一意义上使用它们。在这些条件下,感知机似乎能够进行试错学习。然而,双价系统不一定非要涉及奖励和惩罚的应用。如果一个二进制编码的响应系统被组织得如此,系统中存在一个响应或响应对,代表每一个“比特”或学习的刺激特征,当响应为“开”时,对其自身源集提供正反馈,而当响应为“关”时,提供负反馈(即活跃的A单元在这种情况下会失去而不是获得值),那么系统仍然具有双价的特性。这样的双价系统在减少某些偏差效应(例如,由于刺激的大小或频率更大,错误响应的偏好)方面特别高效,这种偏差效应困扰着其他系统。
已经考虑了几种形式的双价系统(15, Chap. VII)。其中最有效的具有以下逻辑特性:
如果系统处于正强化状态,则会将一个正的增量$ \Delta V $ 加到“开”反应的源集中的所有活跃A单元的值上,而将一个负的增量$ \Delta V $ 加到“关”反应的源集中的活跃单元。如果系统当前处于负强化状态,则会将一个负的增量$ \Delta V $ 加到“开”反应的源集中的所有活跃单元,而将一个正的增量$ \Delta V $ 加到“关”反应的源集中的活跃单元。如果源集是互斥的(这是该系统正常工作的必要条件),则双价$ y $-系统的方程与单价$ a $-系统的方程(公式11)具有相同的系数。该系统的性能曲线如图12所示,其中系统在与图11相同的刺激参数下的渐近一般化概率被绘制出来。这里的概率是指在一个n比特的响应模式中所有比特都正确的概率。显然,如果正确响应的大多数足以正确识别一个刺激,那么性能将优于这些曲线所指示的水平。在一种利用更合理生物学假设的双价系统中,A单元可能在其对连接反应的影响上是兴奋性或抑制性的。在这种系统中,正的增量$ \Delta V $对应于兴奋性单元的增加,而负的增量$ \Delta V $对应于抑制性单元的增加。
这样的系统与上面考虑的系统类似,但可以证明它效率较低。
与图12所示类似的双价系统已经在康奈尔航空实验室的IBM 704计算机上通过一系列实验进行了详细模拟。结果验证了理论的所有主要预测,相关结果将在稍后单独报告。
改进的感知机与自发性组织
前面几节中对感知机性能的定量分析忽略了时间作为刺激维度的考虑。一个没有时间模式识别能力的感知机被称为“瞬时刺激感知机”。有研究表明(15),同样的统计可分性原理可以使感知机区分速度、声音序列等,只要这些刺激留下某种暂时持续的痕迹,例如改变的阈值,这会使得A系统在时间 $t$ 的活动在某种程度上依赖于在 $t-1$ 时刻的活动。还假设A单元的起源点是完全随机的。通过适当组织起源点的空间分布(如图1中显示的投影区起源),可以使A单元对轮廓的位置特别敏感,从而改善其性能。
在最近的发展中,我们希望能在不久的将来详细报告,已经证明,如果允许A单元的值按其大小成比例衰减,则会出现一个显著的新特性:感知机能够自发地“形成概念”。也就是说,如果系统暴露于来自两个“不同”类别的随机刺激序列,并且它的所有反应都被自动强化,而不考虑它们是否“正确”或“错误”,系统将趋向于一个稳定的终态,其中(对于每个二元反应)反应将对一个刺激类别的成员为“1”,对另一个类别的成员为“0”;即,感知机将自发地识别出这两类之间的差异。这个现象已在模拟实验中成功演示,使用的是704计算机。
即使是一个只有单一逻辑层次的A单元和反应单元的感知机,也能在选择性回忆和选择性注意领域表现出一些有趣的特性。这些特性通常依赖于不同反应源集的交集,已在其他地方详细讨论(15)。通过结合音频和视觉输入,可以将声音或听觉“名称”与视觉物体关联,并让感知机执行选择性反应,例如“命名左边的物体”或“命名此刺激的颜色”。
此时可能会提出一个问题:感知机能力的终点究竟在哪里?我们已经看到,所描述的系统足以进行模式识别、联想学习,以及执行选择性注意和选择性回忆等认知集。该系统似乎有潜力进行时间模式识别,并能够进行空间识别,涉及任何感官模态或模态组合。可以证明,在适当的强化下,它将能够进行试错学习,并能学习发出有序的反应序列,前提是它的反应通过感官通道反馈。
这是否意味着感知机在原则上无需进一步修改,就能够执行像人类语言、交流和思维中涉及的那种更高阶的功能?实际上,感知机的能力似乎在相对判断和关系抽象的领域存在限制。在其“符号行为”中,感知机与Goldstein描述的脑损伤患者(5)有一些显著的相似性。对于明确、具体的刺激的反应可以通过学习得到,即使正确的反应需要识别多个同时存在的条件(如当刺激在左边时命名颜色,右边时命名形状)。然而,一旦反应要求识别刺激之间的关系(例如,“命名方块左边的物体”或“指出出现在圆形之前的模式”),问题通常就变得过于困难,感知机无法处理。单靠统计可分性并不足以提供更高阶抽象的充分基础。在这一点上,似乎需要一个比感知机更先进的系统来解决这个问题。
结论与评估
感知机理论研究的主要结论可以总结如下:
- 在随机刺激的环境中,一个由随机连接单元组成的系统,在上述参数约束下,可以学习将特定的反应与特定的刺激关联起来。即使每个反应与多个刺激相关联,它们仍然可以以比随机概率更高的可能性被识别,尽管这些刺激可能彼此相似,并可能激活系统中的许多相同感官输入。
- 在这样的“理想环境”中,随着学习的刺激数量的增加,正确反应的概率会逐渐降低,趋向于最初的随机水平。
- 在这样的环境中,没有一般化的基础存在。
- 在“分化环境”中,每个反应都与一类相互关联或“相似”的刺激相关联,系统学习的特定刺激的正确关联保持的概率,通常随着学习的刺激数量的增加,会接近一个比随机更高的极限值。通过增加系统中联接单元的数量,这个极限值可以使得其值接近1。
- 在分化环境中,未曾见过的刺激能够正确识别并与其相应类别关联的概率(正确的一般化概率)会趋向与对先前强化刺激的正确反应概率相同的极限值。如果刺激类别满足不等式 $P_{c12} < P_a <P_{c11} $(对于相关的刺激类别),那么这个极限值会比随机概率更高。
- 通过使用对轮廓敏感的投影区,并通过使用二元响应系统(其中每个响应或“位”对应刺激的某些独立特征或属性),可以提高系统的性能。
- 在二值强化系统中,可能进行试错学习。
- 通过仅扩展原有的统计可分性原理,且不引入系统组织的重大复杂性,系统能够学习刺激模式和响应的时间组织。
- 感知机的记忆是分布式的,这意味着任何关联可能会利用系统中大量的细胞,而移除部分联接系统并不会对任何一个辨别或关联的性能产生显著影响,但会在所有学习过的关联中显示出一种普遍的缺陷。
- 简单的认知集、选择性回忆以及自发地识别给定环境中存在的类别是可能的。然而,空间和时间中的关系识别似乎代表了感知机在形成认知抽象方面的一个限制。
心理学家,尤其是学习理论学者,可能会问:“现有理论比 Hull、Bush 和 Mosteller 等人已经提出的定量理论,或者像赫布(Hebb)等的生理学理论,有什么新的进展?”当然,现有的理论仍然过于原始,不能被视为现有的人类学习理论的完整对手。然而,作为一种初步的近似,其主要成就可以总结如下:
对于给定的组织模式($\alpha$、$\beta$、或 $\gamma$; $\Sigma$ 或 $\mu$; 单价或双价),学习、感知辨别和一般化的基本现象可以完全通过以下六个基本物理参数来预测,即:
- $x$:每个A单元的兴奋性连接数
- $y$:每个A单元的抑制性连接数
- $\theta$:A单元的期望阈值
- $\omega$:每个A单元连接的R单元的比例
- $N_A$:系统中A单元的数量
- $N_R$:系统中R单元的数量
当 $N_s$(感官单元的数量)非常小的时候,它变得很重要。假设系统从所有单元的初始状态开始是均匀的;否则,还需要初始值分布的相关信息。上述每个参数都是一个明确的物理变量,可以独立于我们试图预测的行为和感知现象进行测量。
作为其基于物理变量的直接结果,现有系统在三个主要方面超越了现有的学习和行为理论:简洁性、可验证性,以及解释力和普适性。接下来,我们将依次考虑这三点:
- 简洁性 本系统中使用的几乎所有基本变量和定律都已经存在于物理学和生物学的结构中,因此我们只需要假设一个假设变量(或构造),我们称之为V,即“关联单元的值”。这是一个必须符合某些功能特征的变量,这些特征可以明确说明,并且假设它具有潜在的可测量物理相关性。
- 可验证性:先前的定量学习理论,似乎毫无例外,都有一个重要的共同特征:它们都基于在特定情境下测量的行为,通过这些测量(经过理论操作)来预测在其他情境中的行为。最终,这种程序相当于一种曲线拟合和外推过程,期望描述一组曲线的常数能够适用于其他情境中的曲线。尽管这种外推不一定在严格意义上是循环的,但它与循环性逻辑的许多难题是相似的,尤其是当它被用作行为的“解释”时。这样的外推在新的情境中很难得到合理的解释,已经有研究表明,如果要在任何经验上失败的情境中(比如从白鼠到人类的变化)重新推导基本常数和参数,那么基础理论实际上是无法被反驳的,就像任何成功的曲线拟合方程是无法被反驳的。事实上,心理学家普遍认为,试图“证伪”当今主要学习理论几乎没有意义,因为通过扩展或参数变化,它们都能够适应任何特定的经验数据。 这种观点体现在越来越普遍的态度中,即选择理论模型主要是个人审美偏好或偏见的问题,每个科学家都有权选择自己偏好的模型。在考虑这种方法时,不禁让人想起Kistiakowsky的一句名言:“给我七个参数,我可以拟合一只大象。”显然,采用一个系统,其中独立变量或参数可以独立于预测行为进行测量,情况并非如此。在这样的系统中,如果当前使用的参数导致不正确的结果,就不可能“强行”拟合经验数据。在当前的理论中,若在新情境中未能拟合曲线,将清晰地表明无论是理论还是经验测量存在问题。因此,如果这种理论能够经得起反复测试,我们可以比起那些必须根据每种情况定制的理论,更有信心相信它的有效性和普适性。
- 解释力和普适性:现有理论基于基本物理变量,因此并不特定于任何一种有机体或学习情境。原则上,它可以推广到任何已知物理参数的系统中的任何行为形式。建立在这些基础上的学习理论应该比任何先前提出的理论更强大。它不仅能告诉我们在任何已知的有机体中可能出现的行为,还能够合成行为系统,以满足特殊需求。其他学习理论在广泛推广时通常会变得越来越定性。例如,描述奖励对白鼠T迷宫学习影响的方程组,在我们试图将其推广到任何物种和任何情境时,最终简化为一种表述:奖励行为趋向于以递增的概率发生。而这里提出的理论,在进行广泛推广时,仍保持着它的精确性。
唐纳德·赫布(Donald Hebb)提出的理论试图通过展示如何从神经生理学理论推导出心理功能,来避免基于行为的模型所面临的困难。在这一尝试中,赫布的研究哲学与我们的方法非常相似,他的工作为我们提出的许多内容提供了灵感。然而,赫布从未实际构建出一个能够从生理系统预测行为(或任何心理数据)的模型。他的生理学理论更多的是对行为背后可能存在的有机基质的一种建议,旨在展示生物物理学和心理学之间桥梁的合理性。
现有的理论则代表了这种桥梁的首次实际完成。通过前述方程式的使用,可以从神经学变量预测学习曲线,同样,也可以从学习曲线预测神经学变量。这座桥梁在反复验证下的稳定性仍需观察。与此同时,本文提出的理论清楚地展示了量化统计方法在认知系统组织中的可行性和丰硕成果。通过对感知机等系统的研究,希望能够最终理解所有信息处理系统(包括机器和人类)共同的基本组织规律。