重整化:理解猫和宇宙的通用逻辑

物理学家、计算机和大脑从其他无关紧要的数据中提取重要特征的逻辑办法是共通的。

深度学习的一种特定简单情形下的计算和统计物理的RG计算过程在数学上是等价的。两者都是把局部特征一步步提炼为全局特征。我觉得,两位优秀的物理学家感受到了两个领域的思维模式和计算技巧的共鸣,进而设想大自然是不是具有一种统一的对信息进行提取的逻辑和方式。

2012年,在YouTube视频上流传着一个可以识别猫的视频。就在上个月,另一个名为「一群玩飞盘的年轻人」的图片也广为流传, 人工智能研究者们因「深度学习」取得的进一步成功而欢呼雀跃,这是一套具有广泛意义且非常成功的稀疏算法模型,大致模仿了大脑仅通过身处真实世界就能对世界特征变得更加敏感的方法。

运用最新的深度学习协议,由人工神经元网络组成的计算机模型正变得越来越擅长图像,语音和模式识别——它们也是私人助理,复杂数据分析和无人驾驶汽车的核心技术。但是,尽管他们在训练电脑从一些不相关的数据从提取出显著特点上取得这么大的进展,研究人员还没有完全弄明白这种算法或者生物学习为什么会如此有效。

现在,有两位物理学家发现深度学习工作方式之一和物理学最重要也最普遍的数学技术非常相似,这是一种用于计算物理的系统大规模并行行为的程序,比如基本粒子及其相互作用,流体,宇宙等。

波士顿大学的 Pankaj Mehta和西北大学的 David Schwab的最新研究证明,重整化(renormalization) 的统计学方法——一种可以使得物理学家不必要了解系统组成的所有确切状态,也能较为精准地描述系统的技术——也能让人工神经网络实现数据分类与预测;比如,无论视频中的颜色、大小、姿势如何,都能认出这是一只「猫」。

埃默里大学的生物物理学家 Ilya Nemenman说,「他们已经通过确切证据将那些人们认为只有梦里才可能存在的东西写成了论文。」「统计物理学和深度学习中的关联特征提取,并不仅仅是用语相似,它们就是一回事,同一件事儿(they are one and the same)。」

人类在灌木中发现一只猫,人群中一张熟悉的脸,甚至是我们身边那些混乱颜色,条纹,声音中的任何事物,深度学习和生物学习高度的相似性启示我们,大脑或许也通过重整化( renormalization )的方式来理解这个世界。Metha说,「如何能从数据中发现相关特征,或许存在一些普遍的逻辑解释,」「我认为,这可能暗示类似东西的存在。」

Schwab、Mehta和其他研究人员曾认为,物理学家的分析技巧和物体或语音识别背后的学习过程,具有哲学上的相似性,如今,他们的研究结论正式化了这一观点。 Schwab说,重整化是「选择一个真正复杂系统并将它蒸馏到只剩基本组成部分」「这是深度神经网络在做的。也是大脑努力在做的事情。」(点评-荧幕上的极客:这里的重整化有两个概念上的理解:一个是深度学习对于大脑的「重整化」;另一个是大脑对物理世界的「重整化」。)

分层学习

十年前,深度学习似乎还不给力。运行该程序的计算机模型经常无法识别出图片中的物体和录音中的语音单词。

多伦多大学的英国计算机科学家Geoffrey Hinton和其他研究人员设计出一种运行于多层虚拟神经元网络的程序,通过「放电」开关将信号传送给周围邻居。这些「深度」神经网络的设计灵感来自人类视觉皮层的层级结构——大脑这部分负责将大量光子转化为有意义的观念。

当人看见猫走过草坪时,视觉皮层会分层处理所见情景,后一层的神经元会对规模更大、也更显著的特征做出响应。起初,视网膜神经元发现与背景形成鲜明对比的内容后会放电,指出内容的边沿或者末端等。这些视觉信号会传至更高一层神经元,这部分神经元对边沿组合以及其他越来越复杂的部分很敏感。接着进入下一层,一个胡须信号可能会与另一个胡须信号配对,还会和尖状耳朵组合起来,最终引发顶层的神经元对猫的概念做出响应。

十年前,Hinton尝试复制发育中的婴儿大脑与敏感数据中相关关联的协调过程,学会用胡须和胡子而不是背景中的花进行分类。Hinton试着训练深度神经网络使用简单学习规则——这是上世纪八十年代,他和神经科学家Terry Sejnowski的共同研究成果——来完成这一任务。当图片或者声音输入深度神经网络最底层后,数据就引发一连串放电活动。一个虚拟神经元发电能引发相邻一层与之相连的神经元根据彼此连接的强度进行放电。这种联系最初被分配到一个随机优势分布,但是,当两个神经元一起放电并对数据做出响应,Hinton和Sejnowski的算法就会决定他们的这种联系将得到加强,增加了该联系继续成功传送信号的可能。相反,几乎很少用到的联系就会被削弱,这和赫布假设当中的学习理论有一定的联系。当需要处理更多的图片或语音时,数据模式就会渐渐在网络中留下痕迹,就像支流慢慢向上穿层而过。理论上,这些支流将汇聚到顶层一小撮神经元中,代表着声音或物体的类别。

《Evidence That Machines Learn Like Us》一文指出,深度神经网络可以运用与人类大脑相同的算法识别数据模式。如上图所示, 视网膜图突出了它的分层结构。

问题是处于底层的大量数据需要经过层层处理才到达神经网络的最顶层进入分类。算法效率不够。

2005年,Hinton率领团队设计了新的训练系统,这套系统灵感源于上世纪六十年代他在剑桥学习时了解到的大脑开发内容。生物学家Colin Blakemore在解剖猫大脑时发现了视觉皮层的发展阶段,从视网膜开始,每层的连接会进行相应的调整,从而对收到的感官信号做出回应。

为了复制视觉皮层递进式的发育方式,Hinton在每层神经网络运行学习算法,在输出结果之前对每层网络的连接进行训练——更大规模地呈现原始数据——对每层的数据输入进行处理,然后对整个网络进行微调。学习过程中效率显著提高。很快,深度学习打破了图像和语言识别准确度的记录。整个研究项目迅速在谷歌,脸书和微软得到推广使用。

Naftali Tishby是耶路撒冷希伯莱大学一名计算机学和计算机神经学科学家,他说「在Hinton及其同僚的努力下,深度神经网络已经成为目前最好的数据分类系统。」「然而,机器学习领域的理论家对此十分沮丧,他们还没想通到底为什么神经网络能如此成功。」

深度学习的工作方式很大程度上是模仿大脑进行的。然而却无法完美地复制;人类大脑皮层的结构要比人工的结构复杂的多,其内部的网络算法尚未知,但在Hinton的成功推动下,深度学习近年来有了不同领域的分支,在生物领域也已经执行了很多难以置信的学习任务。而Hinton本人,目前同时在多伦多大学和谷歌公司任职,认为就机器学习和生物学习来讲,最关键的一个原则是:「你需要先从简单的功能学起,根据所学再去研究更复杂的功能,这是一个循序渐进的过程。」

桌子里的夸克

2010年,当时还是普林斯顿大学生物物理专业博士后的Schwab搭乘火车前往纽约,旁听Hinton有关深度学习的课程。Hinton提出的那套逐层训练步骤让他骤然想到早已在物理领域运用普遍的技术。Schwab觉得「这种逐层训练的方法似乎将物理学的某些本质现象具体化了。」

当Schwab回到普林斯顿,便给Mehta打了电话,询问他是否认为深度学习听上去和重整化有很多相似之处。他俩早已熟识并自数年前暑期研究项目会议之时就开始合作研究,时常互换「疯狂的想法」。Mehta倒不认为这个想法有多么不合逻辑,两人约定一起验证他们的直觉是否正确。「我们经常深更半夜打电话,并且保持联系,对我们而言有点着迷了。」Mehta说到。

重整化是一套从微观层面到宏观层面,将影响到大尺度行为的因素与其他因子平均化的系统方法。于物理学家而言,足够幸运的是微观细节并不重要,描述一张桌子根本不需要知道它的亚原子夸克是如何相互作用的。不过整个过程中同样需要通过一套复杂的方法来在巨量的高维空间中迭代寻找最优系统的参数解(也是一个拟合的过程),在这一过程中强化了与之真正有关联的细节同时淡化无关的因素。

Mehta和Schwab的研究突破来自一次蒙特利尔爵士音乐节上的酒会,当时他们决定专注一个可变的或「聚合体-自旋」式的重整化步骤,即递归合并系统的要素成更大的聚合体并同时均分化体块内的要素。该方法于1966年由统计物理学家Leo Kadanoff发明。该方法对那些形似的物体很管用,因为这些物体在任何尺度上看起来都很相似;Kadanoff的一个经典例子就是二维伊辛模型(Ising model)—由自旋粒子或微小的指向可上可下的磁体组成的晶体。他证明通过放大晶体尺度,粒子的物理描述能够很容易转化成对粒子聚合体的物理描述。

带着找到深度学习里层级化数据表现途径的期望,Schwab和Mehta在Kadanoff的经典论文和两篇2006年由Hinton和同事撰写的文章之间来回寻找线索,后者详细阐述了第一个深度学习的协议。最终,他们搞懂了如何从一个步骤通过数学方法映射到另一个步骤,并证明这两种概述世界特征的机制是等价的。

为了描述这种对等,Schwab和Mehta用20000个伊辛模型晶体例子来训练4层神经网络。利用Kadanoff方法总结海量数据,神经元逐层即刻模仿呈现体块越来越大的自旋物聚合体。「神经网络能够从那些应该聚合-重整(block-renormalize)的样本中学习,」Mehta说到。「这对我们来说很棒,因为你不必人工输入了,相反,系统在主动学习。」

当面向一张猫的图片而非形似的磁体晶体,一个深度神经网络或许会采用其他更灵活的重整化方法来学习,但是研究人员推测,系统也会采用剔除无关因素,聚合数据中与猫有联系的相关因子的方式来从像素尺度的神经层进阶到宠物尺度的层级。

概述世界

研究人员希望,深度学习与统计物理学的交叉能给两者都带来好处,Schwab说,「但要预计杀手级软件会给任何一方带来什么影响,还为时过早。」

由于深度学习能让自身适应手中的数据,研究者希望,对于传统的重整化方案无法处理的过于凌乱的系统,比如细胞的集结体或复杂的蛋白质,深度学习能管用。对于这种缺乏对称性、且不具有分形特性的系统,「没有任何一种统计物理学中的机械步骤管用,」Nemenman说, 「但我们还是知道,一定能得到一个粗粒化的描述,因为我们的大脑能在客观世界中运作。如果真实的世界是不可概述的,那么,我们的大脑也不会像现在这样理解它。」

通过深度学习,有希望能够更理论性的理解人类的认知。宾夕法尼亚大学的一位物理学家和神经科学家,Vijay Balasubramanian声称,他和他的同事们,一群同样跨越两个学科的研究人员,从很久以前就注意到了重整化与人类感知之间概念上的相似性。Balasubramanian说,「Pankaj和David论文中的进展,也许能给我们一个工具,让这个类比更精确。」

例如,研究成果似乎支持着新出现的假设:大脑中的一部分在一个「临界点」运作,在这个临界点上,每个神经元都能影响整个神经网络。索尔克生物研究所(加利福尼亚州,拉荷亚)的教授Sejnowski解释说,在物理学中,重整化计算是在物理体系的临界点上进行的。「所以它(重整化)与大脑相关的唯一可能性,在于它是否位于临界点。」

(点评-荧幕上的极客:关于自组织临界点:比如堆沙子,堆到一定高度,再放上一粒沙子,就会使得整个圆锥的沙堆系统崩塌,最后这粒沙子影响了整个系统。关于重整化:还是堆沙子,但是重整化的过程有些像把细沙换成粗砂,同时要保证粗砂的临界点变化(也就是崩塌)和细沙过程一致,之后再多次重整化,把粗砂换成小石子,只要能保证临界点变化在可用精度范围内便算成功的重整化。物理学上类似方法举例来说,假如有一亿个粒子的流体需要模拟,那么为了减少计算开支,可用将其合并为1000万个,合理可接受的情况下再合并为100万个,以此类推,在过程中保持系统的等价性。有关大脑临界点的科普文章:《Disorderly genius: How chaos drives the brain》)

新的工作可能会带来更进一步的消息。Tishby认为,这暗示了重整化、深度学习和生物学习都符合同一个信息学理论。所有的技术都致力于简化繁琐的数据。他们一步步的把信息压缩至本质,在最后的版本中,每一个字节都不与其他任何字节相关。比如,猫用多种方式显示它们的存在,但是深层神经网络整合不同类型的联系,并把它们压缩进单个的神经元。「网络的功能就是压缩信息,」Tishby说,「这是个瓶颈。」

他指出,通过公开将信息压缩至最小版本的数学方法,「这篇论文或将指引我们获得激动人心的成果。」

机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.almosthuman.cn查看更多精彩内容。

热门文章HOT NEWS