一篇文章读懂谷歌机器学习

围绕机器学习,如果让Google母公司Alphabet董事长施密特选择创业,他说自己会聚焦在医疗领域 。

“机器学习对我而言,是为了让人类能够更不像机器那样去做事,而不是像机器一样做事。”

在Google公布开源第二代机器学习系统的第二天,Google母公司Alphabet董事长施密特(Eric Schmidt)通过远程视频,接受采访时说。

施密特当场举了一个例子:“你们都是记者,在会场还要不停地用电脑打字,而不是只是听和说。为什么不能让机器去做比如制造业的重复工作、很多打字的工作?如果我们在50年之后再对比现在,会发现计算为我们节省了很多时间和精力。”

他预计,在Google开源第二代机器学习系统之后,尤其是在医疗行业、游戏、教育等领域,机器学习将发挥巨大的价值。

有意思的是,施密特提到,“围绕机器学习,如果让我创业的话,我会愿意聚焦在医疗领域 ”。

如何让机器自我学习?

对于机器学习,在11月10日的Google Apac (亚太地区年度会议)上,Google科学研究员Greg Corrado首先作了一个比喻:“机器学习就像火箭助推器,而大量的数据就是火箭的燃料。”

在这背后,谷歌机器学习的原理是:用众多的电脑模拟人脑中的“神经元”,形成一个人“神经网络” ( Artificial Neural Network)。它不需要借助大批研究人员帮助电脑标明事物之间的差异,只要为算法提供海量的数据,“神经元”与“神经元”之间的关系将会发生变化,让数据自己说话,让组成“神经网络”的机器具备自动学习、识别数据的能力,在新的输入中找出与学到的概念对应的部分,达到机器学习的效果。

例如,当人们需要计算机辨别图片内容的时候,各个人工神经元就会把所抓取的信息传递给被设置为“决策者”的神经元上,它们通过统观其下层所有神经元所呈现的信息,结合案例、数据的分析及算法最终得出结论。

而在这背后,谷歌的机器学习的步骤是:首先需要找到“Model(模型)”,就是在输入和输出中间的一个转换公式,也就是“机器学习”中的“机器”;其次,需要为这个公式找到“参数”,这是需要机器进行学习,并不断修正;最后,它需要“学习”如何不断调整参数、降低错误。

Greg Corrado通过一个让机器学习预测“学生读书时间与学业成绩间的关系”的例子来解释机器学习的过程。

试想,学生阅读(x)的时间与学业成绩(y)之间的关系,以不同的x、y参数来代表,通过一些学生的案例情况,可以画出一条以代数方程式呈现的直线来代表其中的关系。但对于机器学习,这条直线与y轴之间的角度(W)以及与原点间的距离(b),可以得出这条直线的公式为y=Wx+b。而机器学习则是透过大量的例子(学生成绩与学习时间的资料),作为Learner,让拥有机器学习能力的程式,透过微调W与b的数值,让所绘出预测直线,更准确地预测下一个学生的情况。

机器学习如何进化?

施密特透露,谷歌对于机器学习的研究要追溯到7-8年前的语音技术开始。但是,机器学习这一技术取得突破性进展,是发生在计算机视觉领域。

在2012年时,我曾远程采访过Google X实验室科学家杰夫·狄恩(Jeff Dean),他当时透露,“Google X”实验室通过连接16000台计算机处理器,创建了一个机器学习的神经元网络系统。结果发现,这个系统自行创建了猫这个概念并且自学了对猫的辨认,这就是“自我学习”。

和传统的机器视觉技术不同,它们是根据人类的指令进行学习,从而识别出某些特性;但在谷歌研究中,工程师们无需预先向机器输入某一概念,该系统就能在并未得到任何外在帮助的前提下“自学成才”。

“我们在训练的时候从未告诉过那是"猫",系统只是自行创建了猫这个概念。”杰夫·狄恩告诉我,“大脑”是自己从未被标记的YouTube静态图片中发现了猫是什么样子,这就是“自我学习”。

不过,当时的谷歌机器学习还只是一个实验项目,局限于认知类的简单工作。而在短短几年后,谷歌的机器学习已经从识别谷歌应用中的语言和图片的第一代机器学习系统 “DistBelief”更新到了第二代的TensorFlow系统,并且应用到Gmail、Google Photos、Google翻译、YouTube 等Google自己的产品中。

例如,利用机器学习技术,Gmail电子邮件服务的垃圾邮件拦截率提高到了99.9%,误报率降低至0.05%。这背后的原因就是,在垃圾邮件过滤器中引入了机器学习,这一技术能够通过分析大量计算机上的电子邮件学习识别垃圾邮件和钓鱼邮件。

重要的是,机器学习能够适应不断变化的情况,而非只是利用预先设置好的规则拦截垃圾和钓鱼邮件,它还能自己在运行过程中自己创建新的规则。

而另一个能代表这项技术的最新产品是,谷歌在Gmail上推出智能自动回复功能Smart Reply。Smart Reply是基于Google机器学习系统,对海量邮件里的场景、邮件写作风格和写作语气进行分析,从而帮助用户筛选适合语境的回复短句。

      为什么要开源?

“在Google内部,现在机器学习已经是谷歌搜索中第三大重要的技术。” Google研究员Greg Corrado说,人工智能是科学家希望机器变得更智能,机器学习则是从经验和数据中学习,Greg Corrado透露,其实谷歌感兴趣的是两个领域的交集, “手动去编程机器显然没有让它自己学习来得更有效。”

不过,实现机器学习的训练过程仍然漫长。在这个过程中,机器需要做大量测试、调整和适配工作,也很有可能犯一些人们不大可能犯的错。

这也正是Google把机器学习系统的大门向业界工程师、学者和拥有大量编程能力的技术人员敞开的原因,这将推动更多人在机器学习领域做出贡献,尤其对创业公司、学生、发烧友而言,而目的就是希望业界将TensorFlow作为一种很好的手段来实现各种各样的机器学习算法,同时也为其在各种场景下的应用带来改进。

“例如,计算机的视觉如果比人要更好,为什么还要人去开车?应该让机器开车。现在是医生看X光,未来如果让机器看是否会做出更准确的诊断? ”施密特说,Google要迈出一小步,实现大幅度的飞跃。“在开源之后,如果全世界的聪明人都将给Google很好的回馈,Google会有更好的发现,让产品和服务更完美。”

他同时提到,机器学习非常善于预测时间先后顺序的事件的发生,自己尤为看好机器学习在医疗、游戏、教育等领域发挥的价值。“甚至我们的竞争对手的团队都会用它, 这就是谷歌不同于别人的原因。”

对于目前Google机器学习的开放策略,Greg Corrado表示,一方面,Google开放机器学习,在于鼓励大家从不同角度去研究,即使在Google内部,也不只是一种方法去做机器学习;另一方面,Google已经和学术界、企业界、不同的实验室合作,例如Facebook、百度等。

机器学习是工具不是魔术

尽管开源了自己的机器学习系统,但Greg Corrado特别强调了一点:机器学习并不是魔术,不要盲目地认为机器学习就一定比没有机器学习的好,它只是工具,能够让研究人员通过它转化那些疯狂的创意,而不需要研究人员们再重新编写代码。

不过,未来,当机器能够像人类大脑一样去思考时,究竟该如何看待机器学习的伦理问题?未来机器人是否会像电影《少数派报告》中那样,充当“坏人”的角色?

施密特给出的回答是,“只有电影里才会把机器人设定成坏人,在现实世界里,我们完全可以通过算法制定一些规则来保证它能够正确地工作。”

热门文章HOT NEWS