当前位置:首页 > 专家文章

类脑(受脑启发的)计算的问题与视觉认知

发布时间:2017-07-05 08:45:48

问题,在学科进展中的意义是不可否认的。一门学科充满问题,它就充满生命力,如果缺乏问题,则预示着该学科的衰落。正是通过解决问题,人们才能够发现学科的新方法、新观点和新方向。

引言:“有问题的学科才有生命力”—戴维 希尔伯特

问题,在学科进展中的意义是不可否认的。一门学科充满问题,它就充满生命力,如果缺乏问题,则预示着该学科的衰落。正是通过解决问题,人们才能够发现学科的新方法、新观点和新方向。

近年来,世界一些发达国家对脑科学研究投入了前所未有的热情,越来越多的科研经费涌入这一领域,也催生了信息领域对人工智能和类脑(受脑启发的)计算研究的新一轮高潮。人类的大脑具有感知、记忆、学习、推理和创造性思维,塑造了人的个性。类脑计算是以脑认知科学和神经科学研究成果为基础,借鉴人类感知、认知机理,建立受脑启发的、不同于现有冯 诺依曼计算结构的信息组织、存储和处理的计算模式。这种计算模式对发展异构动态大数据处理、非结构化复杂模式信息分析与视觉场景理解计算的新理论及关键技术具有极其重要的意义。

本文围绕类脑(受脑启发的)计算的研究前沿及其存在的基本问题,强调类脑计算的研究必须面向具体问题,试图从脑网络连接机制及视觉认知的角度探讨类脑计算可能的实现途径和方法,介绍了选择性注意机制在视觉信息处理中的重要作用和实现方法,讨论了如何利用可塑的、时空动态演化的非线性关系网络来代替传统的基于定量数值的计算方法。本文还介绍了作者研究团队正在开展的可用于大规模神经网络计算的片上众核通信互连架构与软件支持环境的研究。

前言

大数据、远程自主系统和半自主系统的发展对计算能力和能效提出了更高要求。2016年3月对全球半导体产业发展具有重要指导和参考意义的国际半导体科技蓝图(International Technology Roadmap for Semiconductors,ITRS)更名为国际器件及系统技术蓝图(International Roadmap for Devices and Systems,IRDS),将不再围绕摩尔定律强调如何提高芯片的运算速度和能效,进而转向关注如何让芯片发展能够符合移动计算、数据中心以及人工智能的需求。这标志着摩尔定律即将退位,以应用为主的集成电路发展方向逐渐成形[1]。另外,随着计算机性能的大幅提升、获取互联网数据的高效便捷,特别是深度学习方法在大规模图像分类、语音识别、人脸识别等领域取得惊人的进步,人工智能又出现新一轮的热潮[2]。但目前的深度神经网络模型对训练数据过度依赖,大多采用前馈连接,缺乏逻辑推理和对因果关系的表达能力、缺乏短时记忆和高效的无监督学习能力,很难处理具有复杂时空关联性的任务。这些问题促使我们去寻求新的计算模式。

寻求类脑计算的物理实现形式,我们需要在物理的、符号的、语义的三个层面上弄清楚如下两者之间的关系,即:计算装置与计算过程之间的关系,大脑与认知之间的关系。图灵机模型表明,存在一种普适的计算机制,它可以完成任何可用形式化方式描述的计算任务,而且图灵测试的可能性是建立在符号系统所具有的可塑性的基础之上。计算形式的普适性使得冯 诺依曼结构的现代计算机可以完成图灵机表征的任何过程,但前提是能将人类或其他生物的认知行为抽象出诸如:规则、推理、推论、归纳等这样的语义规律性,并把它们看作是关于符号的计算。然而,人类的大脑具有感知、识别、学习、联想、记忆和推理等功能,并不能全部用符号计算的形式来实现。这些功能与大脑的结构存在着对应关系,并且大脑的神经网络系统具有多层的反馈机制,如来自于高级“控制”脑区到初级视觉脑区的反馈信号,形成了基于内容和语义的视觉“选择性注意”机制。类脑计算就是受上述脑功能和脑神经网络连接机制启发的一种计算架构(图1),它以神经形态计算的模式来部分模拟大脑功能与其结构的对应关系和反馈连接,增强人工智能及其计算效率,不完全依赖现有冯 诺依曼计算结构,也不是复制人类的大脑或简单地建造一种模拟神经元功能的芯片,更不是去完全替代冯 诺依曼计算结构。 

1.jpg

图1 类脑计算的一种基本架构

然而,至今我们对人类认知功能如何从复杂动态(时空演变)的大脑神经结构中产生,没有形成较为完整的认识。因此,目前探讨如何实现类脑计算就成为了一个充满争议和挑战的命题[3-4]。本文围绕类脑计算存在的基本问题,试图从脑网络连接机制、联想记忆及视觉认知的角度探讨类脑计算可能的实现途径和方法,并指出借鉴人类视觉感知与认知机理,寻求新的视觉表征与场景理解的计算模型是实现类脑计算的重要突破点之一。

1 为什么当前再次聚焦类脑(受脑启发的)计算

类脑计算不是一个新命题。早在1982年,日本为了在计算机领域赶上和超过美国,制定了一项雄心勃勃的第五代计算机计划,其目标是突破冯 诺依曼计算架构的局限性,发展出能够与人对话,翻译语言,解释图像,并且像人一样推理的机器。然而,该计划的命运是悲壮的,由于未能实现预期的目标,1992年日本政府不得不终止该计划。

近20年来,脑科学、计算机科学、人工神经网络理论、集成电路技术的长足进步,以及大数据时代的到来、非完整信息处理与知识推理、自然的人机交互、各类自主系统对智能感知与计算技术的需求,以及传统人工智能的局限,使得科学家们再次聚焦“类脑计算”[5]。

1.1 大脑认知的层次和传统人工智能的局限性

人类大脑认知活动分为三个不同层次:直觉、形象思维和逻辑思维、灵感与顿悟[6],其中形象思维和逻辑思维是在人的意识控制之下进行的,而直觉、灵感与顿悟则是一种潜意识活动,是大脑的自主信息处理功能的具体表现。直觉、灵感与顿悟是人类在发明创造的过程中经常表现出来的认知活动。直觉是以知识经验为基础,跳跃地、直接抽象地识别事物的本质,直觉判断往往是为了迅速解决当前的问题,而灵感则是在某种偶然因素的启发下使问题得以顿悟。然而,人工智能的很多研究工作主要集中在完整信息(结构化或半结构化)的处理,用特征学习和定量计算的模式来实现大脑认知的“形象思维和逻辑思维”,将深度学习与概率网络结合,也可在一定程度上对完整信息进行直觉判断,而对于实现非完整信息的直觉判断还无能为力。特别是,目前的人工智能计算模型存在着以下局限:

(1)需要对问题给出形式化描述(即抽象出一个可解析的数学模型,如果抽象不出,即归纳为不可解问题);

(2)需要对形式化描述设计确定的算法(容易产生NPC类问题);

(3)处理的结果无法表示现实世界问题所存在的测不准性和不完备性;

(4)图灵意义下的可计算问题都是可递归的(“可递归的”都是有序的);

(5)用“度量”来区分模式、只能处理可向量化的数据。

传统人工智能的基本理论框架建立在“思维即计算”的理论基点上,以“演绎逻辑和语义描述”和“形式化方法”实现计算。将“思维”抽象为“符号计算”对人工智能的发展产生了重大的推动作用,但为所有的对象建立模型是不可能的,也未必是完备的。这里存在条件问题(Qualification Problem)和分支问题(Ramification Problem),即不可能枚举出一个行为的所有先决条件,也不可能枚举出一个行为的所有分支。而大脑的认知具有多种方式,如对环境的理解、非完整信息的处理、复杂时空关联的任务,还有最基本的形象思维,特别是人脑在非认知因素和认知功能之间的相互作用,它们是形式系统难以,甚至不能描述的。

人类能够为未来做出计划、可以灵活处理问题并且向他人学习,这些是人类智能的基本属性。而传统人工智能方法,无法实现类似人一样思考推理的机器,去深度解决自然场景描述和环境理解等知识推理问题,也难以完成许多对于人类大脑来讲轻而易举的一些任务。因此,人们期望借鉴大脑的工作原理发展出一种新的智能机器的架构或称之为强人工智能的计算理论和方法。

1.2 冯 诺依曼计算架构的不可替代性与所面临的困境

冯˙诺依曼计算结构示意图,见图2(引自维基百科)

2.jpg

图2  冯 诺依曼计算结构示意图

前面指出,冯˙诺依曼架构的计算机可以实现任何可用形式化方法描述的计算任务。未来,这种架构的计算机依然会在人类社会中发挥不可替代的作用,并为我们解决更多、更复杂的计算任务提供强大的工具。如四色定理构造性证明,没有冯˙诺依曼计算架构无论如何都是不可能的。发展具有更高计算能力的冯˙诺依曼架构的计算机,并在这种架构下应用形式化理论,实现大数据处理和跨领域的知识学习,依然是计算机科学与人工智能领域重要的科学目标。但我们面临的计算任务并不都是可用形式化方法来描述的。从人类认知信息加工机制的角度看,图灵计算及简单的并行分布处理架构,没有紧密的结合生物学实际,虽然目前的计算机可以高效的执行预定指令、完成精确的数值计算,然而其分离的运算和存储结构、以及有限的并行度(指令级、数据级、线程和任务级)、有限的容错和鲁棒性,特别是功耗问题制约了冯˙诺依曼计算架构的进一步发展。表1给出了基于冯˙诺依曼结构的计算与类脑(受脑启发的)计算的主要区别。

表1  冯 诺依曼计算结构与类脑(受脑启发的)计算的主要区别

w.jpg

2  脑科学研究进展、大脑网络连接和联想记忆

近二十年来,由于脑科学、神经科学、信息科学等学科的进步,科学家们能在微观尺度上观测基因和蛋白质结构、在介观尺度上研究细胞、神经环路和网络结构、在宏观尺度上研究脑区结构以及认知行为。在这样的背景下,欧盟、美国和日本等科技大国先后发起各类“大脑研究计划”[3-4],引起学术界和产业界的广泛关注和研究的热情,似乎将要迎来类脑计算的繁荣景象。面对如此宏伟的目标,我们需要保持冷静、乐观谨慎的态度,在了解目前脑科学研究在理论和技术方面取得进步的同时,更需要知道类脑(受脑启发的)计算存在的挑战和问题。

2.1  脑科学研究在理论和技术方面的进展

(1)理论准备:研究发现,描述复杂网络的动态演化和调控的大尺度时空因果关系的网络结构曲线图,是一个具有显著聚类特征的幂函数曲线,与许多复杂网络如互联网、社交网、脑神经网络等有高度的相似性[7]。该研究对于构建人工网络来模拟大脑的设想提供了理论支持。

(2)观测技术:技术的进步往往是探索新发现的钥匙。新的测序、成像技术和显微技术已经彻底改变了我们观察大脑的能力(采用不同的观测技术可以在不同的空间和时间尺度记录大脑活动信号,如图3所示)。随着脑科学与认知科学的研究发展,人们已经可以在微观水平观测到脑神经元的结构、不同脑区的形态,以及神经元放电、不同神经元如何构成神经网络等信息处理过程。结合这些实验观察,可以在计算机上部分模拟脑信息处理过程[3]。

3.jpg

 图3  不同时空尺度的脑活动观测技术

(3)精确的神经元调控与观测技术:该方向代表性的技术有光基因技术(Optogenetics)[8],其基本原理是用光选择神经元的开和断。通过把能够感受光刺激的离子通道蛋白的基因转入神经细胞,使神经细胞在它的细胞膜上表达这种蛋白,然后用光来控制这种蛋白的开放或关闭,从而控制神经细胞的兴奋或者抑制。通过该方法来操作神经回路,探查或顺序激活位于大脑不同区域的神经元的活动,观察对大脑的意识、感觉和行为的影响。另一项代表性技术是可植入的导电聚合物网(软性的大脑电子探针):哈佛大学的科学家使用该技术,在老鼠的颅骨部钻孔,用针头将该网注射进老鼠大脑,这个网格很快地展开填充到大脑组织的缝隙部分并与大脑组织交融。此时与外部电脑连接的纳米导线可以用来记录或者刺激单个神经元的活动。该研究小组计划将该技术使用到新生小鼠上,长时间的观察和记录大脑的生长发展过程及其与环境的交互,研究动物大脑知识和记忆的机理[9]。

(4)神经形态计算:2014年8月IBM在《科学》杂志上发表了神经形态计算的最新成果——TrueNorth芯片[10]。该芯片集成了54亿个晶体管,模拟实现了1百万个神经元和2.56亿个神经突触,而功耗只有65毫瓦。IBM还展示了基于TrueNorth架构的视觉分类、运动识别等简单应用。论文所介绍的工作令人印象深刻,但其技术路线过分强调生物学的模拟,使用“spiking-integrate-and-fire”神经元模型,从计算的复杂性和实现更大规模的网络计算架构来看,该技术路线无法实现更有价值的应用和构建实际的计算设备。欧盟HBP项目研究内容的一部分与IBM研究TrueNorth芯片的技术路线类似:设计一种模拟神经元功能的芯片,然后将其用于建造超级计算机,进而实现类似人脑的智能。2015年10月,欧盟HBP项目在《Cell》杂志发表了关于幼鼠躯体感觉皮层的微型电路的数字化重构的研究结果,成功模拟了3万个神经元和3700万个神经突触,该模拟再现了脑科学研究中已有的一些生理实验观测结果[11]。一些学者认为该成果是集20年的神经生物学实验和10年的神经计算科学的大成之作,是迄今在“模拟脑”领域最全面的工作。但科学界对于该工作的评价依然褒贬不一。大脑是一个异常复杂的动力学系统,具有多种在不同时空层次上的反馈机制,在定量分析和计算模型上的深入解析是至关重要的。而且,生物学上可识别的大脑状态并不等同于功能上可识别的大脑。因此,通过有限的神经生物学实验,无法完整地描述大脑认知过程的功能性概括。欧盟HBP项目过分乐观,并且对大脑记忆及其神经网络的聚合与分离的机制实现没有给出令人信服的结果,容易导致研究的偏差和误解。

2.2  大脑网络连接与认知的关系

类脑计算的最根本的挑战是人类大脑信息处理和认知功能的复杂性。从分子层面来看,大脑的神经细胞连接是惊人的复杂。大脑神经网络及其连接中可能有某种复杂化原则在发挥作用,促使人脑的学习思维以及与生存环境的交互。大脑复杂的网络连接、信息传输和组织方式在实现人类的认知过程中起着关键的作用。科学界已经对大脑是由多个不同区域的脑组织连接而成的网络达成共识,其中各个脑组织区域负责不同的认知任务。层次化、多尺度、高度连通、多中央枢纽的网络拓扑结构,决定着大脑任务相关以及自发的活动。通过发掘大脑结构连接(structural connectivity)、功能连接(functional connectivity)和有效连接(effective connectivity)的聚合和分离(敛散性)来洞察大脑的认知机理(图4)。其中,大脑的结构连接是相对静态的,而功能连接和有效连接具有时、空动态演化的特性,具体表现在连接强度变化以及神经脉冲信号的时序关系变化上。

2.2.1  大脑的结构连接

大脑皮层的结构连接(连接图谱)是研究大脑工作机理的出发点。不同皮层之间的解剖学连接结构,可以通过磁共振弥散张量成像获得,并使用图理论(如连接矩阵和连线图)进行有效性等分析。

4.jpg

a)大脑结构连接       b)功能连接         c)有效连接

图4 大脑三种连接的示意图

通过对猫科动物和猕猴的大脑皮层解剖发现,大脑的结构网络具有“Small world”的特性。大脑连接的形成方式和连接长度受限于生物材料和能量代谢的约束,形成了占大量比重的短距离连接(低成本)以及丰富的中央枢纽结构(适应性)。大脑的结构连接是大脑容错特性的生理基础,短距离的连接网络中部分细胞的消亡并不会影响大脑的功能,然而,中央枢纽单元的破坏,往往会对大脑的功能形成严重的、广泛的、甚至不可修复的损伤[12]。

2.2.2  大脑的功能连接

大脑皮层的功能连接常用来分析识别大脑特定的任务和功能(Task-Specific),功能连接可以通过静息态下的fMRI观测获得,表示一种基于神经生理现象的统计相关性(Statistical Correlations)。功能连接受损之后会影响特定的大脑功能。功能连接是和特定的任务相关联的,例如:通过对脸盲症患者的实验发现,人眼看到运动的人物时,大脑是通过两条不同的神经传输路径分别来提取人物身份和判断运动位姿(功能连接)[13]。初级视觉中功能连接显示了较大的分离度和较小的模块间互连,而在高级的认知任务中则表现出了较多的模块间的互连度,揭示了生物视觉具有小范围竞争、大范围协作的特点。大脑任务切换时,功能网络的重构度可以预测人的认知弹性[14]。在大脑处理新任务时,位于额顶叶中的中央枢纽灵活地在各个专门任务处理区域间进行多项快速的连接切换,中央枢纽网络的存在使得人可以处理新的认知任务,并增强人的学习能力和适应性(如:使用新的工具、学习新的语言)。通过对中央枢纽活动模式的观察和分析,可以确定大脑是否在执行特定的任务[15]。因此通过对大脑功能连接的深入分析,有助于研究大脑的神经编码模式,发展相应的脑机交互技术。

2.2.3  大脑的有效连接

有效连接用来描述神经元之间的因果互动和相互影响,它并不是直接通过大脑皮层成像获得,而是通过统计分析的方法获得的。功能网络的重构度可以预测人的认知弹性,但在功能连接重构过程中,有效连接决定了认知弹性的效率和能力[14]。

大脑的功能与其结构存在着对应关系。这种关系有别于基于符号和概率的知识表达,大脑通过复杂的时、空动态演化的网络系统来完成信息的判断和推理。对于这样一种可塑的、动态的非线性关系网络,目前,我们无法使用形式化的方法进行完整描述,更无法简单地利用传统的基于数值的计算模型来实现。

2.3  大脑的记忆

记忆是生物神经系统的一个重要功能。对于大脑记忆机制和模型的研究,既可以增进人们对于大脑工作机理的理解,具有重要的科学意义,又能推进类脑(受脑启发的)计算的发展,具有重要的工程应用价值。

大脑首先从感知觉系统的外部或者内部感受器中收集内外部的信息,然后利用神经系统中记忆的知识对收集的信息进行解释和判断。由于信号不可避免的带有噪声,而且通常观察也是不完全的,因此,在神经系统的各个水平上都必须借助记忆完成对接受的信号的修正和完整化。同样的,为了形成适应性的行为决策,神经系统必须能够对环境变化的“历史”形成内部模型,这个作为决策依据的模型也是由记忆提供的。

机械记忆和生物记忆是两类主要的记忆形式,分别以计算机中对于数据的存储和高等动物脑中的记忆为代表,不同于机械记忆,生物记忆有如下几个特点:

首先,生物记忆的介质是生物神经系统,神经元是神经系统的基本组成单位。神经生物学实验表明,神经系统主要通过改变多个神经元之间的突触联接强度而记忆信息,并通过多个相关神经元状态的集体变化表示不同的信息。因此,生物记忆的第一个特点是分布式记忆,这与现代计算机利用一个或几个相邻字节表示一个单位信息的所谓局部性方式有很大不同。

其次,在生物记忆的回忆过程中,输入的信息与回忆出来的信息必定有某种关联,或者前者是后者的一部分,或者两者在内容上相似或有联系(如正好相反),或者两者在环境中同时出现(即空间相关)或相继出现(即时间相关)。早在两千多年前,亚里士多德就提出记忆的输入信息和回忆出的信息之间具有关联性,他把这种现象总结为联想律(Principle of Association)。因此,人们通常把人类或高等动物的记忆称为联想记忆。输入信息与读取信息的关联性是生物记忆的重要特点,而在计算机中,信息在介质中存储具有确定的地址。

生物记忆的第三个特点是动态性,在人类的联想记忆中,不只是由一个输入项联想出一个相关联的记忆项,人们能够记忆和回忆一个结构化的序列,人的回忆是一个具有丰富动态特点的过程。形成鲜明对比是,计算机利用一个地址读取一个信息,是一种机械单调的过程。

另外,在生物神经系统中,记忆与信息的处理过程是缠绕在一起的,不像计算机系统那样,信息存取的过程与计算过程是相对分离的。

因此,神经记忆的特征主要表现在四个方面:分布式表达和存储、输入信息与检索记忆在内容上具有关联性、存储和记忆检索具有动态性、记忆与信息处理过程紧密结合[16]。记忆在生物神经系统中扮演着十分重要的作用,大脑记忆机制的研究,对于类脑(受脑启发的)计算具有重要的指导意义。

3  类脑(受脑启发的)计算面临的问题

问题1:我们尚未搞清楚大脑的工作机理

目前,脑科学、神经科学的基础研究并未向我们完整揭示大脑的工作机理,这个领域还存在很多的问题有待进一步研究,比如:认知功能与大脑网络中不同分布区域的动态交互机理?大脑功能网络的形成和解散与大脑结构网络的衔接和分离的内在机制?在复杂的认知行为中,大脑功能网络如何有效的合作、竞争以及协调工作?不同脑组织的功能角色、以及角色间的基本数学原理,包括知识的获取、表示和存储?大量实验证明,在睡眠状态下,大脑的记忆得到了强化,它的内在机理是什么?大脑用来处理外界激励的能量消耗只占很小比例,那些与刺激无关的能量消耗到底做了什么?

问题2:脑科学是一个“大数据”命题

神经系统的表征分布广泛,神经系统的处理过程中大脑活跃区域的变化以及区域间的相互作用,和不同认知状态下交互空间的变化的状态空间是动态的、巨大的。一个科学家或者一次实验根本不足以揭示大脑复杂的网络连接,只有依靠全球的学者共享实验数据,建立一个开放的脑网络连接数据库,通过不断的数据积累,才有可能达到认识脑网络的目的。如美国的学者于上世纪80年代提出和建立的Brainmap开放数据库就是一个很好的例子[17]。尽管有这些尝试,目前的技术还是远未达到对如此海量的数据进行有效记录和解读,使得我们难以从中提取有关脑的工作原理和规律的完整信息。脑科学不仅是一个数据发现的工程,更是一个数据整合、知识发现的“大数据”工程。

问题3:大脑的通讯编码形式?

生物神经网络是一种脉冲神经网络(Spiking Neural Network),神经元接收到的输入脉冲引起细胞体膜电位的升高,当其超过一定阈值时,将会发出一个神经脉冲到轴突,并通过突触与后续的神经元树突进行神经递质的传输,影响其膜电位。锋电位作为神经元之间的传输信号,研究和理解其信息编码的方式(Spike signal coding)将有助于我们更好的理解大脑的工作方式以及发展人机交互技术。目前,对于大脑神经脉冲的编码形式,我们依然处于摸索阶段。

问题4:如何构建大尺度的神经形态计算系统?

神经形态工程学的关键问题是如何理解单个神经元的形态、神经元环路以及整体架构,如何创建和获得满足不同任务需求所要的计算能力,如何完成信息的表达形式、如何获得鲁棒性、学习以及发展、适应性的塑性变化以及有利于进化的改变。

问题5:计算能力的匹配

类脑计算需要完成高性能计算到高智能计算的进阶,计算能力的度量由每秒完成的浮点数操作(Floating-point Operations Per Second,FLOPS)变化为每秒完成的突触操作(Synaptic Operations Per Second,SOPS)。人类大脑约有10^11的神经元,其中每个神经元有约10^4的突触连接,如果以10Hz的速度释放神经脉冲,其计算量约为10^16次突触操作(SOPS),假设每次神经脉冲操作需要10^2次数值计算,则共需要具有10^18次运算能力的高性能计算机(High Performance Computer,HPC)才能匹配整个大脑突触操作的次数。目前最快的高性能计算机天河-2的计算能力为33.86~54.90 PFLOPS。而具有10^18浮点计算能力的机器预期在2019-2023年才能出现。

4 三种类脑认知计算模型与技术实现途径

虽然我们能够在微观尺度上观测基因和蛋白质结构、在介观尺度上研究细胞和神经网络结构、在宏观尺度上研究脑区结构以及认知行为,但至今我们对于大脑的结构和功能的关系以及认知功能的机理,并未形成一个完整而全面的认识。即使如此,借鉴神经科学的一些发现和认知科学的一些理论,将会极大的地推进人工智能研究领域的极大发展,如:LeCun等学者受神经科学中局部感受野的启发设计了卷积神经网络[18]。Bengio等学者借鉴大脑基底神经节与前额叶的信息处理机制,提出了人工神经网络中的强化学习的方法[19]。Poggio模拟灵长类动物在识别物体时视皮层神经活动过程构建的HMAX模型[20]。2016年,Google的Deepmind公司设计的AlphaGo针对围棋这一特定问题采用受生物神经网络层次化组织结构启发的深度学习方法构建了价值与策略网络模型[2],在围棋比赛中获得了足以抗衡(甚至优于)人脑的优异表现。由此可见,借鉴神经科学的知识来丰富和启发人工智能的研究已成为一个重要的研究方向。

4.1  三种类脑(受脑启发的)认知计算模型

目前,国内外学者主要围绕三种类脑认知模型开展研究:

(1)基于生物学的脑认知网络计算模型(图5a),代表性的工作有瑞士联邦理工的马克哈姆教授发起的欧盟HBP项目;

(2)基于数据驱动的脑认知计算模型(图5b),设计各种巧妙的激励测试实验,通过如核磁共振、脑电图等神经成像技术获得有限的实验数据,并对测量数据加以分析归纳;

(3)基于数学和人工神经网络的脑认知计算模型(5c),使用数学分析和计算机模拟的方法对生物实验观察数据和测试结果进行研究,提出大脑信息加工的生物学假设、提炼出相应的数学和计算模型,发展出了相应的计算神经理论和计算方法。

5a.jpg

(a)基于生物学的脑认知计算模型

5b.jpg

(b)基于数据驱动的脑认知计算模型

5c.jpg

(c)基于数学的脑认知计算模型

图5  三种类脑认知计算模型

4.2  类脑计算的技术实现途径

从计算科学和工程学的观点来看,类脑计算是一门以仿生学为基础的、但又超越仿生学的工程研究,其研究基础离不开仿生学提供的大量神经学分析数据,而其具体实现又依赖于物理可实现的小型化、可控的功能载体。目前来看,实现类脑计算可能的技术途径主要有:

(1)基于亚阈值电路和基于忆阻器的数模混合电路的实现方法;

(2)基于数字电路的设计实现;

(3)基于超级计算机的软件仿真。

混合信号芯片可以做到超低功耗和较高的人工神经元密度,但是基于模拟混合信号的应用开发十分困难,高密度的模拟元器件的性能受制程工艺以及温度、湿度的影响很大,难以进行有效的神经编程(Neural Programming)、移植和状态监测等;基于数字电路的设计,易于编程和采用不同的芯片制程设计实现,但缺点是受限于海量的数值运算单元,难以实现高密度的神经元系统;相较于前两种方式,基于超级计算机的方案可以比较方便的构建不同尺度的类脑仿真系统,但缺点是运行速度较慢,设备昂贵且功耗巨大。作者认为,目前已有的类脑计算的研究工作存在着以下几方面的问题:

1.热衷于追求更大规模的神经网络实现,而忽略了神经系统信息处理中最重要也是最基本的单元——神经环路的研究。

2.大多工作集中在神经活动模型和学习计算理论两方面,忽略了神经网络的动力学特性。比如:采用离线学习的TrueNorth芯片,需要通过静态配置的方式将离线训练完成的神经网络参数进行部署,才能实现特定的应用。

3.已有类脑计算架构设计者大多是来自计算机相关专业的专家和学者,往往受人工智能神经网络设计思路的影响,集中在寻找合适的特征来描述外部世界的复杂性和不变性,而忽略了从神经网络内部信息表达模态不变性的角度分析和设计类脑计算系统的研究方法。

5 视觉认知的神经形态计算

正如前言中所指出的,类脑计算是受脑功能和脑神经网络连接机制启发的一种计算架构,它以神经形态计算的模式来部分模拟大脑功能与其结构的对应关系和反馈连接,增强人工智能及其计算效率,而不是简单的复制人类的大脑。这就意味着类脑计算研究的发展必须面向具体问题。

5.1  视觉计算

人脑感知的外界信息大约80%来自视觉通道。而在这些视觉信息中存在着大量的无关甚至使人误解的偏差,并且视觉信息数据本身不会显现出相应的相关性和不变性。但人类的视觉系统,从视网膜的输入到高级皮层形成认知的各个阶段,却能以某种方式理解或整理这些杂乱无章的视觉输入数据。因此,用机器来求解视觉场景理解的问题时,需要回答:在物理学和光学的基础上,对感知的景物图像必须完成哪些处理?如何表示和利用客观世界模型、知识以及选择性注意机制?后一个问题自然地要求机器具有类脑计算的功能。因此,选择人类视觉处理机制的典型应用为出发点和突破口,尝试构建类似大脑的视觉信息处理模型及架构,对促进类脑计算的深入研究具有重要的指导意义。

作者在从事计算机视觉的研究工作中,始终思考着这样一个问题:怎样利用知识,将大脑的某些视觉感知功能赋予机器,即:

(1)如何实现初级视觉中不同层次和水平的自然衔接,使视觉系统自动将信息组织成具有连续性的结构?

(2)认知的基本单元是什么?是否存在统一的方式处理不同视觉模块灰度、纹理、形状、颜色、表面深度和运动的组织信息?

(3)选择性注意力机制是怎样在大脑的初级视觉信息处理中产生作用的?

(4)如何将这个组织原则映射到物理可实现的高度并行的“类脑”计算结构中?作者在《计算机视觉与模式识别》一书中指出:“计算机视觉系统和模式识别机器,尤其是在信息的高度并行分布式处理方面的进展,将更加依赖于对于人脑功能正确的模拟,而且这可能为下一代计算机及机器智能的研究开辟出一条新的途径”[21]。视觉认知计算可以作为类脑计算的一个突破点,它有助于构建结构紧凑、高能效的智能自主系统,并为智能机器人和大规模非结构化数据知识处理、远程自主系统等新兴学科提供新的计算架构参考,使类脑计算在更广泛的领域得到应用。

人眼所能看到的光谱波长范围从380纳米到780纳米,这段波长称为可见光谱,在可见光范围内,不同波长的光给人以不同的色彩感觉,不同强度的光及不同强度分布的光刺激人眼,在人脑中将产生不同的光强,颜色,形状等视觉信息。

人类具有完善的视觉系统可以在瞬息感知外部世界,视觉系统中不同的神经元,它们分别对由简单到愈来愈复杂的视觉图像(如运动、边缘、形状、颜色和纹理等)产生刺激和反应。神经科学家对视觉信息的并行处理进行了深入的研究。所谓的并行分块处理是指不同视觉性质的信息成分按不同的神经通道进行预处理并输入视皮层,由不同性质的皮层细胞分别进行分析处理。以英国科学家Zeki为代表的神经科学家认为,人类视觉系统使用更加精巧的策略或办法来统一不同性质的信息,即在几个不同水平上相互作用来多级地处理复杂的视觉信息,并在大脑皮层由这些反应得出对外部世界的描述。解决复杂的视觉任务需要多种信息的融合以及利用多种约束条件和知识。

图6给出了人类视觉信息通道的示意图。光线从眼球前方的角膜穿过,经过前房、晶状体、玻璃体、聚焦于视网膜上,被感光细胞接收,使得光信号转换为电信号。具体的,信号经由感受器(视杆和视锥细胞)->双极细胞(第一级神经元)->节细胞(第二级神经元)->视神经->视交叉->视束->外侧膝状体(第三级神经元)->视辐射->内囊枕部->枕叶视区的传导途径到达大脑皮层,形成视觉[22]。视觉信息系统包含不同的通路对视觉信息的不同属性进行传递和处理,多条通路之间还存在交叉连接。不同细胞群的响应表示被感知物的不同特征,多种特征的关系构成整体的感知。

6.jpg

图6  人类视觉信息通道示意图

5.2  研究计算视觉的基本观点

研究计算视觉,我们必须知晓:视觉不是孤立地起作用,而是复杂的行为系统的一部分;其次,视觉计算是动态的,通常并不需要一次将所有的问题都计算清楚,而是对所需要的信息加以计算;第三,视觉计算应该是自适应的,视觉系统的特性应该随着与外界的交互而变化。同时,初级视觉中的全局和局部感知同样存在着交互行为,小尺度和大尺度感知是并行的、相互作用的。生物视觉具有小范围竞争、大范围协作的特点,该特点与2.2.1小节中提到的大脑结构网络具有“Small world”的特性,表现出结构和功能的一致性。下面简单讨论视觉认知的基本性质。

5.2.1 视觉交互行为与注意力集中

视觉认知过程不只是被动地对环境的响应,同时也是一种主动行为:人们在环境信息的刺激下,通过眼动、走动,改变观察点,从动态的信息流中抽取不变性,在交互作用下产生知觉(主动视觉系统)。人脑在视觉认知过程中存在自下而上和自上而下的双向信息处理通道。生物视觉通道使用自下而上的传递过程(200ms-300ms)对视觉对象形成初步认知结果(100步法则)。通过自上而下的反向传递控制眼球的注意力,完成预测-验证的认知过程。人具有从复杂环境中搜索特定目标,并对目标信息进行选择处理的能力[23-24]。这种搜索与选择的过程被称为注意力集中(Focus attention)。比如,大脑通过控制眼球的肌肉,完成注意区域的聚焦,在眼动过程中的信息则是被忽略的。人们对于注视点周围的物体可以精确地反应出其颜色、形状、深度信息,而对于处于视野边缘的物体,则很难分辨清楚它的颜色、形状和距离。这就是信息表达的不完整性。选择注意机制可分为独立于内容和语义的初级(Low-level)注意系统和基于内容和语义的高级(High-level)注意系统两个层次。

5.2.2 选择性注意与群体编码(绑定问题)

研究表明,单细胞并不能揭示视觉皮层神经编码原理,没有任何一个神经元可以独立地表达知识或联想记忆。而是,由“一群”神经元参与对不同模式的表达,而且其中任一个给定的神经元,在不同时刻发生不同的作用。这种性质大大减少了神经网络的规模,同时也提高了产生新的神经表达的灵活性。这里就产生了群体编码(Population or assembly coding)。应用局部并行的方式来实现复杂的全局计算。视知觉组织协调这些局部过程,并与数据导向相结合。动态群体编码表现出一种选择性绑定(Selective binding)问题。

5.2.3 反馈

反馈在人类视觉信息获取和认知过程中起着极其重要的作用。反馈环节的引入,使得人类具有主动的、有目的的对外界的感知。神经反馈分为下意识和有意识的反馈控制,例如最简单的膝跳反应就是一个下意识的行为。而在众多人群中,排选熟悉的面孔,则是深思熟虑的结果。

5.3  视觉认知与深度学习

5.3.1 深度学习的进步与问题

借鉴大脑的视觉处理机制,人工神经网络表现出类似人脑的学习、归纳分类的能力。目前深度学习(Deep Learning)方法依赖大规模训练数据,在图像分类、语音识别、人脸识别等领域已接近甚至超过了人的能力。2015年12月举行的ImageNet和MS COCO计算机视觉挑战赛上,来自微软亚洲研究院孙剑团队采用152层神经网络获得了超过人眼辨识的正确率[25]。但目前深度网络模型与人类大脑相类比,我们无法给出深度网络对应学习或分类任务的功能连接与有效连接的定义和描述,并且存在以下问题:

(1)缺乏理论支持(如:面向不同复杂度的任务需要设计多少隐层?如何消除海量存在的冗余参数?何种网络连接为最优结构?)。因此其很难对效果超群的深度学习算法在具体问题上给出恰当的理论解释。

(2)大规模神经网络容易过拟合数据,只有采集到充分大的标注且数据维度足够高时,有了大数据样本才能缓解复杂模型的过度学习。因此深度学习性能依赖于海量的学习样本以及样本的质量,在小样本数据下无法获得有效的知识(概念)。

(3)目前的深度学习方法,还是停留在统计学习和复杂模式识别与分类层面上,比起人的学习能力还有很多局限。比如,人的举一反三、触类旁通、无师自通所展现出的知识迁移的学习能力是现有统计学习所远远不能达到的。2015年12月《科学》杂志封面文章《通过概率规划归纳的人类层次概念学习》[26],介绍了通过概率推理的“单样本学习”方法,实现了“只看一眼就会写字”的人工智能系统。由于先验知识的存在,贝叶斯方法适合小样本的学习。这篇文章表明将计算模型和人类认知过程的观测模式与认知科学的理论相结合,互为建立线索和印证,可以从极小的样本里进行学习,并能自动归纳、抽象训练数据里的高层次信息。计算机理解概念,学会如何学习这种方法对于人类字符书写一般规律的推理和概念形成是有效的。但是对一个复杂场景理解等任务建立类似的generative model还有很长的路要走。深度模型与知识的融合,外部记忆的增强,深度学习与贝叶斯学习推理的结合应该是其未来的研究方向。

5.3.2 视觉认知中的深度学习层次结构

在视觉认知计算中,对深度学习层级结构的理解要避免走入一个误区:层级结构最顶层的输出是认知编码的目的。实际上人对视觉刺激的认知编码的结果是整个层级结构,而不只是层级结构最顶层的输出。目前的深度学习和计算机视觉只需要识别出图像中的对象,这种认知是面向对象的。人脑不仅能识别出输入图像中的对象,还能在一定程度上识别出构成这些场景和对象的细节(虽然不是像素级的细节)。也就是说,在大脑层级编码模型中,底层的作用不仅是为了最终得到最顶层,而每一层本身就是对图像的部分编码。

另外,一种观点认为高级视觉认知就是对象认知,这种理解容易对视觉认知机制产生混淆和误导。比如啮齿动物,它们并不需要识别出什么是建筑、什么是草坪、什么是公路,它们的高级视觉认知主要在于复杂环境中的导航,比如快速识别出哪里可以逃跑,哪里存在障碍等[27]。人脑认为草坪和道路作为两个对象,其界线非常明显,而啮齿动物的高级视觉认知可能并不会对视觉场景做这样的划分。因此,构造一个能很好的识别“对象”的算法只是解决“眼前”的问题。但是,对象识别只是人脑适应环境的结果,仍然不是最根本的视觉认知机制。

5.3.3 现有视觉计算架构的局限

传统的图像传感器不具备或者仅有简单的计算能力。视觉信息的处理受限于视频帧格式的传感器输入(如30/60Hz的时间分辨率)。固定时间间隔的空间采样有可能损失重要的时域信息。同时,在初级特征获取之前,大量未加工的、冗余的数据需要进行传输或者计算,从而消耗了大量的通讯带宽和计算资源。

在信息处理过程中,空域和时域运算执行效率受限于计算和存储相分离的架构,即使采用并行度很高的GPU,并通过精巧的存储设计和编译器的优化支持,依然只能获得有限的能效提升。在当前主流的处理器架构中,虽然采用更高级别的并发多线程技术,可以在一定程度弥补存储单元与计算单元之间的通讯延迟,但依然无法避免参与计算的数据在层次化存储单元中频繁的搬移所带来的能耗问题。

5.4  脑启发的视觉处理计算架构

视觉通道特别是视网膜的信息处理能力、大脑神经连接的网络化结构以及联想记忆启发我们设计和研究新型的视觉计算模型和处理架构。这种架构的组成单元有:从帧驱动到事件驱动的信息获取单元(智能计算前移)、注意力选择/事件驱动的信息获取方式、时空动态的信息编码、网络化分布式的动态信息处理、结合长时和短时记忆功能的网络结构,以及条件要素的约束和引导的有效控制。实现大脑结构网络、功能网络和有效网络在视觉处理架构不同层次的映射。

5.4.1  概念形成与流形解离

Hebb学习理论[28]认为神经系统中的概念是由一组联合激励的神经元集群共同表达的,这一理论也描述了突触可塑性的基本原理:突触前神经元A向突触后神经元B的重复持续刺激,可以导致突触传递效能的增加。如果用于表达一个特定概念的细胞集群中的某个神经元(簇)并未接收可以让它产生神经脉冲的激励(没有激励,或者激励不足),它依然可以通过属于同一个细胞集群组中其它神经元(簇)的兴奋刺激,促使其达到激活的状态。

人类识别图像通常对图像信息进行编码,通过大脑视觉腹侧通路将编码信息传导至下颞叶皮层。下颞叶皮层神经可以被复杂的图形(人脸)所激活,并对图形的位置、大小、姿势和光照等变化信息具有鲁棒性。因此根据下颞叶皮层的神经反应特性,视觉图像信息形成概念的过程可以看做是将相互缠绕的高维流形(图像)逐渐解离至具有不变特征的相互独立的空间中(图7)[29]。利用这一特性将有助于启发我们寻求新的视觉认知计算模型和架构。

7a.jpg

(a)人脸概念在图像空间形成高维流形

7b.jpg

(b)人脸概念在好的神经特征空间中的表达

7c.jpg

(c)人脸概念在差的神经特征空间中的表达

7d.jpg

(d)两个人脸在像素空间中相互缠绕

图7  人脸识别的流形解离与概念形成示例

5.4.2  时空信息编码方式

视皮层神经元活动存在同步震荡现象,人们进一步通过对视皮层神经元脉冲精细时间结构的分析发现,脉冲的间隔似乎也被用来进行信息编码,并提出了神经元是基于脉冲时间一致性检测机理的方式发放神经脉冲的假设。有别于传统的“整合-放电”的工作原理,该假设认为信息的传递不是由单位时间的发放率,而是由脉冲的发放时间间隔决定的。细胞群通过空域快速的功能连接重组完成上下文(任务)的相关表达,通过时域传递时间的间隔(或频率)调制完成信息的组织。

“整合-放电”的方式只与信号的积分有关,忽略了信号的顺序和时间尺度关系。而基于时间间隔的震荡方式具备信号的时序相关分析,可以较好的鉴别信号与噪声、捕获异常。前者在当前的人工神经网络研究中早已得到了广泛的应用,但后者的研究还未引起足够的重视。虽然后一种编码方式还未获得生物学和神经科学的严格证实,但笔者推测,或许时空信息的编码方式可以获得更接近于生物神经系统处理的效率和能力,应该加强这方面的研究探索。

基于数据驱动的视觉神经信息编解码模型为视觉信息时空编码方式提供了另一种探索途径。视觉神经编解码是以视觉认知理论为基础,即人在看到不同的图像时,大脑会产生不同的时空动态响应。如图8所示,通过采集人眼接受不同图像刺激时,大脑响应时空数据来建立并训练数学模型,可以预测人眼看到新的图像时的大脑响应(视觉神经编码),或者根据采集到的大脑响应来识别、重构人眼所看到的图像(视觉神经解码)[30]。例如,美国科学家Gallant及其团队利用fMRI信号成功识别出被试者所看到的自然图像,识别准确率最高达到92%[31]。日本科学家Miyawaki及其团队采用MVPA方法直接从fMRI信号重构出被试者看到的二值图像[32]。视觉神经编解码是面向工程应用的,比如未来有可能将摄像机看到的信息编码为大脑可识别的信号并传递到盲人的相关脑区,帮助盲人恢复视觉能力。从理论研究的角度,对视觉神经信息编解码模型的研究可以为我们研究真实大脑的视觉编码机制提供思路。

8.jpg

图8  数据驱动的视觉神经信息编解码

5.4.3 从帧驱动到事件驱动的信息获取

这里讨论智能计算前移的观点。在焦平面进行简单信号处理,从而提高计算效能。人类的视网膜具备初步的信息处理能力,启发我们采用地址事件表征的视觉传感器(Address Event Representation,AER)来完成计算前移和信息筛选。计算视觉的知识告诉我们,图像强度突变处的检测(物理边缘)和运动估计是初级视觉中两个重要的问题。采用AER结构的图像传感器,当感光像素的光流变化超过一定阈值时,输出一个含有时间和像素地址信息的脉冲编码,否则没有输出。采用事件驱动的传感器可以大大提高视觉处理的时间分辨率(可以获得接近1K的时间采样分辨率)、同时减少数据的传输带宽以及后续的计算资源需求,从而提高信息处理的效率[33]。

5.4.4  从事件驱动到注意力驱动的信息获取

借鉴生物视网膜图像采集和处理的功能,将传感器光探测单元与可配置的图像处理电路紧耦合,完成被动(自下而上的由事件驱动的信息获取,如运动导致的光流变化)和主动(自上而下的注意力选择,如基于概念或经验知识的目标定位)的图像采集。视网膜存在两种感光细胞:视杆细胞和视锥细胞。视杆细胞对暗光敏感,在中央凹处无分布;视锥细胞有色觉,光敏感性差,但视敏度高,在中央凹分布密集,而在视网膜周边相对较少。因此视觉注视点(投射到中央凹)处的图像分辨率远高于非注视区域,这是一种非均匀采样。从生物学能量效率的角度讲,注意力将信息处理聚焦在最有意义的视觉目标或特性上,而不必其他目标或者其它特性。引入注意力驱动的传感器不仅能够实现近似人类视觉处理的双向通道,还可以完成注视区域信息的精细化获取。但这一方案可能带来的问题是,前置图像处理组件会导致传感器中每个像素单元的面积增加,降低像素单位密度,从而减低空间采样分辨率。未来可以采用2.5D或者3D电路结构来弥补这一问题。

5.4.5  网络化结构的信息处理

视觉处理系统包含不同的通路对视觉信息的不同属性进行传递和处理(形状、颜色、运动、立体等),多条通路之间还存在交叉性连接。不同细胞群的响应表示被感知物的不同特征,多种特征的关系构成整体的感知。在计算机视觉的研究初期,网络化的信息处理方式就引起了国内外学者的关注,特别是受之启发的人工神经网络在面向特定的应用领域获得了极大的成功。然而,从大脑的结构连接、功能连接以及有效连接的角度开展视觉认知处理架构的研究才刚刚开始。大脑的三种连接(图4)启发我们发展设计具有层次化、结构化、可扩展的网络拓扑组织结构的计算架构(紧耦合的计算和存储、以及高效的片内/间互连),并按照相应的学习规则动态地完成计算资源分配(模拟神经突触的强度变化),同时兼顾鲁棒的信息交互结构(对于异常、噪声和故障的容忍)。

5.4.6  长/短时记忆相结合的智能存储

学习是人和动物对环境条件所产生的适应性行为。记忆是获得的信息或经验在脑内存储和再现的神经活动过程。瞬时记忆是感觉器官对刺激信息的暂时存储,短时记忆用于信息的保持和精细加工,长时记忆是个体经验积累和认知能力发展的前提。瞬时记忆、短时记忆和长时记忆之间有首因/近因效应,三者之间在一定的条件下可以发生转换。学习和记忆的基本过程是:信息获取、选择、巩固和再现。信息获取是感知器官向大脑输入信号的阶段,注意力在信息的获取阶段影响很大。选择和巩固是信息在脑内进行简单处理、决定是否需要保持和进一步强化形成长时记忆的阶段,其巩固程度和信息对于个体的意义以及是否重复出现有关(增加曝光度会增加熟悉度和确定性,但不清楚是否影响记忆)。再现也即回忆,是将脑中存储的长时记忆信息提取再现于意识,从而利用经验知识信息完成高层次的信息加工处理的过程。

记忆的容量和区分度(容错)也是一个重要的研究内容,对于一个确定规模的神经系统而言,具有良好的区分度的记忆表达和支持更大数目的记忆是一对相互矛盾的目标。由于每个神经元(簇)可以参与不同的细胞集结(概念)的表达,神经拟态计算中一个整体概念的表达广泛的分布在不同位置的神经元(簇),因此,神经系统的记忆容量具有较大的弹性。特别是,当有新的模式需要学习时,如何利用已有的“记忆”完成不同程度的知识迁移,而不是从头开始学习。有关生物记忆的研究还处在不断的研究和发展过程中。在类脑计算(受脑启发的计算)研究过程中,借鉴具有生物学可信度的有关记忆的工作机制,将有助于启发我们寻求新的长/短时记忆相结合的智能存储结构,实现基于分布式联想记忆(知识和经验)的智能信息处理与加工。

5.4.7  条件要素的约束和引导(控制单元)

在视觉感知过程中,三维世界在感光器上的二维投影会导致深度等结构信息的损失,因此为了得到合理的视觉认知输出,需要在认知处理过程中增加自然的约束(关于客观世界的假设和知识)。并且,在不同层次和模块间完成信息融合时,需要设计支持约束条件要素的控制单元来减少或利用信息的不确定性。在瞬时、短时和长时记忆相互转化的过程中和长时记忆的再现调度中,也需要设计支持引导的控制单元来完成有关知识和经验的智能存储和再现。

心理学和神经生物学的实验证明,大脑的视觉处理使用了不同的暗示并将它们组合起来完成信息的理解。在面向视觉认知的类脑计算架构中还应当设计包含提供特定暗示的控制模块,并根据视觉环境采用不同的加权或引导来解决复杂的视觉认知问题。神经生理学的大量实验告诉我们,大脑皮层各功能区域之间的关系是极为复杂的,并且,脑功能具有一种“突现”性质。因此,在设计类脑计算的架构时,解决各层次和各处理模块之间的关联控制是一个巨大的挑战。

5.4.8  面向大规模神经网络计算的互连架构

2009年开始,作者的研究团队围绕大规模并行分布式计算系统与美国麻省理工学院开展合作研究,实现了一种面向千核处理器的可重构并提供时钟级精度的并行仿真器[34-36]。在此基础上,作者的研究团队进一步研制出具有分布式、高通量、高灵活性以及高鲁棒性的网络式大规模并行处理仿真系统(Simulator for Multi-core Architecture Reconfigurable Technology,SMART),并在FPGA芯片上搭建了相应的开发和验证系统。并针对未来采用深亚微米制程的计算芯片所面临的“暗硅”[37]、细粒度的动态电源门控、异构多核、以及加工、老化引起的故障、性能波动对网络计算结构和性能的影响等问题,设计了避免死锁、保障高连通率以及负载均衡的片上通讯系统和资源管理策略[38-39]。

未来,我们将进一步深入研究面向视觉认知任务处理的新型计算架构(如图9所示),以大脑连接网络、功能网络和有效网络的计算映射为出发点,从小规模的视觉神经网络原型设计开始,通过芯片内互连、芯片间互连的网络结构,以视觉认知任务为导向,从组件到系统探索构建受脑启发的视觉计算系统。

9.jpg

图9  受大脑结构网络、功能网络和有效网络启发的类脑计算网络架构

6 结束语

类脑计算是一个令人兴奋又感到望而生畏的艰难挑战。类脑计算的基础理论尚在探索和形成中,我们应加强类脑计算的基础理论研究,以形成可“计算”的框架。仅仅研究人的思维活动或记录脑中所有神经元的发放是不可能研制出真正的智能机器。例如,对鸟的详细研究不可能对如何制造飞机提供更多的启示。机器的智能属性只是在功能上和人的大脑等价,如飞机和鸟之间只是在功能上接近一样。从这个意义来说,研究类脑计算并非去完整复制人的大脑,而是对人脑功能特性的模拟。

至今,关于大脑还有许多未解之谜,脑科学研究的每一项真正的突破都伴随着艰难的历程。当前,我们需要更多时间来发现类脑计算真正的问题所在。要弄清楚类脑计算用来解决什么具体问题,把研究建立在严谨的理论、模型建造、实验验证和统计分析的基础上,使我们对于复杂的、非线性的大脑功能有更深入的了解。

类脑计算的发展离不开脑科学、神经科学、信息科学等学科的共同进步,我们必须加强来自多学科的实验科学家和理论科学家的合作,类脑计算才有可能走上正确的方向。现代科学的进步往往是在新的思想和已有的成见之间精致平衡中实现的。对当前类脑计算的热潮,我们需要保持冷静思考和踏实工作。期望值过高,又没有达到预期的目标,有可能会给学科发展带来的低潮甚至灾难性的后果,使最初的期望目标成为“皇帝的新衣”。

参考文献

[1] Waldrop M M. The chips are down for Moore's law [J]. Nature, 2016, 530(7589).

[2] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search [J]. Nature, 2016, 529(7587): 484-489.

[3] The Human Brain Project: A Report to the European Commission, 2013.

[4] BRAIN 2025 A Scientific Vision, 2014.

[5] Huang Z J, Luo L. NEUROSCIENCE. It takes the world to understand the brain.[J]. Science, 2015, 350.

[6] Thagard, Paul, Cognitive Science, The Stanford Encyclopedia of Philosophy.

[7] Krioukov D, Kitsak M, Sinkovits R S, et al. Network cosmology.[J]. Scientific Reports, 2012, 2(20):10272-10284.

[8] Liu X, Ramirez S, Pang P T, et al. Optogenetic stimulation of a hippocampal engram activates fear memory recall [J]. Nature, 2012, 484(7394):381-385.

[9] http://www.scientificamerican.com/report/world-changing-ideas-20151/

[10] Merolla P A, Arthur J V, Alvarez-Icaza R, et al. A million spiking-neuron integrated circuit with a scalable communication network and interface [J]. Science, 2014, 345(6197): 668-673.

[11] Markram H, Muller E, Ramaswamy S, et al. Reconstruction and Simulation of Neocortical Microcircuitry [J]. Cell, 2015, 163.

[12] Warren D E, Power J D, Joel B, et al. Network measures predict neuropsychological outcome after brain injury [J]. Proceedings of the National Academy of Sciences of the United States of America, 2014, 111(39): 14247-14252.

[13] Gilaie-Dotan S, Saygin A P, Lorenzi L J, et al. Ventral aspect of the visual form pathway is not critical for the perception of biological motion [J]. Proceedings of the National Academy of Sciences, 2015, 112(4): E361-E370.

[14] Braun U, Sch?fer A, Walter H, et al. Dynamic reconfiguration of frontal brain networks during executive cognition in humans [J]. Proceedings of the National Academy of Sciences, 2015, 112.

[15] Cole M W, Reynolds J R, Power J D, et al. Multi-task connectivity reveals flexible hubs for adaptive task control [J]. Nature Neuroscience, 2013, 16(9): 1348-1355.

[16] 李耀勇. 联想记忆模型: Hopfield神经网络与动态神经网络 [D]. 西安交通大学, 1998.

[17] Peter T. Fox, Jack L. Lancaster. “Mapping context and content: The BrainMap model”, Nature Rev Neurosci, 2002, 3: 319-321.

[18] Lecun Y, Bengio Y. Convolutional networks for images, speech, and time series [J]. The Handbook of Brain Theory & Neural, 1997.

[19] YOSHUA BENGIO. A CONNECTIONIST APPROACH TO SPEECH RECOGNITION[J]. International Journal of Pattern Recognition & Artificial Intelligence, 2011, 07(04):647-667.

[20] Koch C, Poggio T,. Predicting the visual world: silence is golden [J]. Nature Neuroscience, 1999, 2(1): 9-10.

[21] 郑南宁. 计算机视觉与模式识别[M]. 国防工业出版社, 1998.

[22] Wald G. HUMAN VISION AND THE SPECTRUM [J]. Science, 1945, 101(2635): 653-658.

[23] Liu T, Sun J, Zheng N N, et al. Learning to Detect a Salient Object [J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2007, 33(2): 353 - 367. 

[24] Sun J, Zheng N N, Shum H Y. Stereo matching using belief propagation [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2003, 25(7): 787-800.

[25] http://www.msra.cn/zh-cn/news/features/imagenet-20151211.aspx

[26] Brenden M. Lake, Ruslan Salakhutdinov, Joshua B,Tnenbaum“Human-level concept learning through probabilistic program induction”, 4 December 2015, Science 350, 1332 (2015)

[27] David Daniel Cox.“Do we understand high-level vision?”, Current Opinion in Neurobiology, 2014, 25: 187-193.

[28] Hebb D O. The organization of behavior [J]. Journal of Applied Behavior Analysis, 1949, 25(3): 575-577.

[29] DiCarlo, James J., and David D. Cox. “Untangling invariant object recognition.” Trends in cognitive sciences 11.8 (2007): 333-341

[30] Thomas Naselaris, Kendrick N. Kay, Shinji Nishimoto. “Encoding and decoding in fMRI”, NeuroImage, 2011, 56(2): 400-410.

[31] Kendrick N. Kay, Thomas Naselaris, Ryan J. Prenger, Jack L. Gallant. “Identifying natural images from human brain activity”, Nature, 2008, 452 (7185): 352-355.

[32] Yoichi Miyawaki, Hajime Uchida, Okito Yamashita, Masa-aki Sato, Yusuke Morito, Hiroki C. Tanabe, Norihiro Sadato, and Yukiyasu Kamitani. “Visual Image Reconstruction from Human Brain Activity using a Combination of Multiscale Local Image Decoders”, Neuron, 2008, 60 (5): 915-929.

[33] Perez-Carrasco J A, Zhao B, Serrano C, et al. Mapping from Frame-Driven to Frame-Free Event-Driven Vision Systems by Low-Rate Rate Coding and Coincidence Processing-Application to Feedforward ConvNets [J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2013, 35(11): 2706-2719.

[34] Ren P, Lis M, Cho M H, et al. HORNET: A Cycle-Level Multicore Simulator [J]. Computer-Aided Design of Integrated Circuits and Systems, IEEE Transactions on, 2012, 31(6): 890 - 903.

[35] http://news.mit.edu/2012/testing-future-chips-multicore-0309

[36] http://www.eetimes.com/document.asp?doc_id=1266538

[37] Esmaeilzadeh H, Blem E, St. Amant R, et al. Dark Silicon and the End of Multicore Scaling [J]. Micro, 2012, 39(3): 122-134.

[38] Pengju Ren, Michel A.Kinsy and Nanning Zheng “Fault-Aware Load-Balancing Routing for 2D-Mesh and Torus On-Chip Network Topologies” IEEE Transactions on Computers, 2016, 65(3): 873-887.

[39] Pengju Ren, Xiaowei Ren, Sudhanshu Sane, Michel A. Kinsy and Nanning Zheng “A Deadlock-Free and Connectivity-Guaranteed Methodology for Achieving Fault-tolerance in On-chip Networks” IEEE transactions on Computers, 2016, 65(2): 353-366.

作者简介

z1.JPG

郑南宁 西安交通大学人工智能与机器人研究所教授、工程院院士、IEEE fellow。研究兴趣有计算机视觉与模式识别、认知计算与机器智能等。

z2.JPG

任鹏举 西安交通大学人工智能与机器人研究所副教授,主要研究方向为机器学习的新型计算架构和神经形态计算等。

z3.JPG

陈霸东 西安交通大学人工智能与机器人研究所教授,IEEE Senior Member。研究兴趣有信号处理、信息论、机器学习,及其在认知科学与工程领域的应用。

z4.JPG

吴昊   西安交通大学人工智能与机器人研究所在读博士。研究方向为视觉认知中的神经编解码、信号处理等。