技术突破│具备人类学习能力的机器已被证明可行

计算机演算规则系统能够从少数几个而非数百万个例子中学会目标识别,因此可以更好地模拟人类认知。

此文由MIT Technology Review 中国大陆地区独家授权,未经授权严禁转载。更多精彩内容请搜索官方微信“mit-tr”,同我们一道关注即将商业化的技术创新,分享即将资本化的技术创业。

目标识别系统开始变得越来越完善,Facebook的人脸识别算法就是一个非常好的例子。

然而,目标识别系统通常针对的是数以百万计的可视化例子,与人类学习方式相距甚远。

对人类来说,只要向他/她展示同一物体的两张或三张照片,他/她通常就能够识别出该物体新的实例。

4 年前,麻省理工学院麦戈文脑科学研究所的托马索·波吉奥(Tomaso Poggio)团队开始研发一种新的视觉表征计算模型,试图反映大脑的实际工作模式。

在即将出版的《理论计算机科学》杂志中,研究人员证明了以其模型为基础的机器学习系统,的确能够根据少数例子完成高度可靠的目标鉴别。

在上述论文和另一篇发表于《公共科学图书馆计算生物学》杂志去年10月刊的文章中,研究人员还表示,其模型的各方面均与大脑工作模式的实证相吻合。

“如果从一定距离向我展示一张你的人脸图像,那么当我下一次从不同的距离见到你时,由于距离不同,图像也会完全不同,因此无法进行简单匹配,”波吉奥说。

他表示,为了解决这个问题,你要么需要大量的例子——我需要从各个位置而不只是一个位置对你的脸部进行观察——要么需要一个恒定的目标表征。”

恒定的目标表征是指,在一定范围内,不随尺寸、位置或旋转等因素变化而变化的表征。

计算机视觉研究人员已经针对恒定目标表征提出了几种技术,但波吉奥团队的进一步挑战是,寻找一种与我们已知的大脑机制相一致的恒定表征。

神经在计算什么

神经细胞或神经元是一种呈细长状、且拥有分支末梢的细胞。在大脑皮层负责视觉处理的区域,每个神经元的末端都有大约1万条分支。

两个皮质神经之间的交流就是通过这1万个不同的化学连接完成的,这些化学连接被称为突触。

每个突触都有自己的“重量”,这是它们增加传入信号强度的一个要素。

在所有1万个突触间传输的信号,最终会汇集到神经元本体。刺激和电子活动模式随着时间的推移会改变突触的重量,正是这一过程使习惯和记忆变得根深蒂固。

线性代数这一数学分支中有一项重要运算叫做点积,该运算是将两个数字序列(或向量)的元素以有序的方式相乘,并将其结果相加形成一个单独的数字。

在大脑皮层中,单个神经回路的输出,可以被看做是两个1万点可变向量的点积。这是一个非常大型的计算,但大脑中的每个神经元都可以瞬间完成。

波吉奥团队以点积为基础开发出了一个恒定的目标表征。

假设让目标的一个小型数字影片在平面上旋转360度——比如分成24帧,每一帧描绘的对象都比上一帧多一些旋转,并将影片保存为24张静止的一系列图像。

假设接下来将为你展示一个陌生目标的数字图像。由于该图像可以被解读成,描述像素色值的一个字符串(向量),因此你可以用影片的静态图计算其点积,并将得到的24个数字序列保存下来。

恒定性

现在,如果再向你展示相同目标被旋转90度之后的图像,那么你用静态图序列对该图像的点积进行计算,将得到相同的24个数字。

尽管它们的顺序会有所不同:第一张静态图的点积将变成第六张静态图的点积,但是数字不会改变。

这一组数字就是,新目标相对于旋转的恒定表征。

在画面中,对同一目标不同尺寸或不同位置的类似静态图序列进行描述,将分别得到相对于尺寸和位置的恒定点积序列。

在新论文中,波吉奥和他的同事证明,如果是以产生一个恒定于旋转、尺寸和位置的目标表征为目的,那么理想的模板是一组被称为加博滤波器的图像。

事实证明,加博滤波器可以很好地描述由视觉皮层中所谓的“简单细胞”执行的图像处理操作。

三维

这种技术虽然适用于同一平面上的视觉转换,但应用到三维旋转上的效果却差强人意。

新图像与正面观察到的汽车之间的点积,和相同图像与侧面观察到的汽车之间的点积,会有很大的差异。

但波吉奥团队表示,如果静态图模板描绘的目标,与新目标的类型相同,那么点积仍然会得出充分恒定的描述。

这一观察结果符合近期由麻省理工学院的南希·坎维舍(NancyKanwisher)等人进行的研究,该研究表明,视觉皮层拥有专门识别人脸或身体等特殊目标类型的区域。

在《公共科学图书馆计算生物学》刊登的文章中,波吉奥和他的同事建立了一个计算机系统,其中安装了一组静态图像,并使用点积演算法来学习对数千个随机目标进行分类。

该系统会根据学习到的各个目标类别产生一组模板,以此预测人类视觉皮层中与之相应的区域尺寸和方差。

研究人员认为,这表明,大脑和他们的系统可能做着类似的工作。

研究人员的恒定假设是“有一种有效手段能够弥补,必须学习数百万标签样例的现代机器,与能够从单个例子中进行学习的灵长类动物视觉系统之间,存在的巨大差距”。

加州理工学院的生物学和工程学教授兼艾伦脑科学研究所的首席科学家克里斯托弗·科赫(Christof Koch)认为,“在构建强大的人工系统的道路上,如果我们要理解现有的自然智能系统,这种简洁的数学框架将是必不可少的。”

研究人员的工作由波吉奥负责的麻省理工学院大脑思想和机器中心部分赞助,后者由美国国家科学基金会资助。

官方微信公众号mit-tr:

热门文章HOT NEWS