深度学习是怎么火的? 什么是深度学习(deep learning)?说白了,就是人工神经网络(Artificial Neural Network,以下简称 ANN)这个旧瓶装了新酒。 人工神经网络包含输入层、输出层以及中间的若干隐层(hidden layer),每层都有若干结点及连接这些点的边,在训练数据集上会学习出边的权值,从而建立模型。随着边所表征的函数的不同,可以有各种不同的神经网络。这种源于人工智能中联结主义学派(connectionism)的方法在上世纪七八十年代盛极一时。John Hopfield,Geoffrey Hinton 和 Yann Lecun 等多位学者都对 ANN 颇有研究。 然而不幸的是,和学术论文中鼓吹的不同,在诸多工程领域中,人们发现 ANN 并没有表现出比其他经典算法更好的性能。究其原因,由于巨大的计算量和优化求解难度,ANN 只能包含少许隐层,从而限制了性能。控制领域仍然在使用经典的 PID 调节,而在机器学习领域,随着以支持向量机和贝叶斯网络为代表的统计学习在 90 年代的兴起,ANN 开始倍受冷落。 Geoffrey Hinton 曾感慨自己的学术生涯就像 ANN 一样起起伏伏。所幸的是,这位 Gatsby 的创立者一直没有放弃 ANN 的研究。从 06 年开始,他陆续开始发表关于如何改进 ANN 的文章,主要是通过很多数学和工程技巧增加隐层的层数,也就是深度,所以被称为深度学习。虽然 Hinton 的观点没有得到足够重视,成为主流共识,但大家开始更加关注这一领域。 08 年 NIPS 基金会没有批准 Deep Learning 的研讨会申请,结果组织者自行开会,会场爆满。除了一直没有放弃的 LeCun 等人,这一领域还吸引来了 Stanford 机器学习的教授、Coursera 创始人 Andrew Ng。Ng 的研究组,率先做出了和现有最高水平相提并论的结果。后来, 大家一步步推进,深度学习在很多实际评测中遥遥领先,一下就火了。 深度学习主张,如果 ANN 的隐层足够多,选择适当的连接函数和架构,并增加一个非监督学习的“pre training”网络组成,就会具有更强的表述能力,但常用的模型训练算法反向传播(back propagation)仍然对计算量有很高的要求。近年来,得益于计算机速度的提升、基于 MapReduce 的大规模集群技术的兴起、GPU 的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时,深度学习才在实践中有了用武之地。 在计算机视觉领域,深度学习首先在手写识别领域表现出众。2012 年,在物体识别(被誉为计算机视觉圣杯)的权威测试 Imagenet Challenge 中,深度学习遥遥领先于其他经典算法(16% VS 26%),吸引了无数眼球。纽约大学计算机科学系副教授 Rob Fergus(和 Yann LeCun 一起加入 Facebook AI Lab)的学生 Matthew Zeiler,创立了一家提供图像搜索服务的公司——Clarifai。他的深度学习算法在本月刚刚结束的 ICCV Imagenet Challnge 2013 中,继续领先于其他算法。 深度学习产品化的浪潮中,科技巨头机会更大 Google 研究员 Ilya Sutskever 最近表示,如果数据足够多、计算能力足够强、人工神经网络足够深,即便不加“pre training”预处理,也可以取得目前最好的结果,这充分证明,目前的深度学习对标注数据量和计算能力都提出了很高的要求。 目前更像是巨头们的游戏。Google 和百度都已在自己的图像搜索中部署了深度学习技术。Google 在内部多个项目组推广深度学习平台,而百度也将深度学习算法运用到了语音等多个产品中。今年 5 月,前 Facebook 资深科学家徐伟加盟百度深度学习研究院(Institute of Deep Learning, IDL)。在这次 NIPS“深度学习研讨会”上,IDL 还设立了展台,它在深度学习方面的研究成果在学术界也越来越有影响力。 最近,Facebook 在人工智能领域动作频频。Zuckerburg 和俄罗斯富豪尤里一起创立了 300 万美元奖金的 Breakthrough Prize in Mathematics,可谓与 AI Lab 的设立一脉相承。拥有海量数据的互联网巨头中,Google 收购了 Geoffrey Hinton 的创业公司 DNNResearch(一家专注于语音和图像识别技术的研究公司), 百度挖来余凯老师创立了 IDL 研究院,IBM 研究院 Watson 电脑开始研究深度学习相关技术,微软研究院邓力老师率先把深度学习应用在语音识别中,Yahoo 收购了 LookFlow 来创建深度学习小组,Amazon 在柏林创立了机器学习研究中心…… 这一系列行动,无论是出于战略防御,还是单纯被深度学习吸引,一个无法否认的事实是:深度学习产品化的热潮已经扑面而来。 深度学习有局限性,初创公司应理性选取机器学习算法 有些人觉得深度学习似乎没有理论深度,其实不然。查阅一下 Geoffrey Hinton 的论文,其中用到的理论很深刻,数学技巧也很复杂,深度学习的理论门槛较高。但是好消息是,以 Hinton、Yoshua Bengio 为首的研究组开放了越来越多的源代码,包括 GPU 的实现,而且多种不同算法的开源实现也被公开,所以算法实现的门槛已经降低了很多。 对于创业者来说,困难在于如何获取大规模已标注数据、集成有 GPU 的计算集群以及针对自己的项目调参数。调参数一直是深度学习被学术界诟病的话题,早期只有几个圈内的小组掌握着调参数的秘方和数据处理的技巧。目前的深度学习参数调节已经比之前透明化了许多,但仍是开发过程中最为耗时的一部分。 目前主打深度学习的创业公司并不是很多,除了被Google收购的DNNResearch,Hinton 的另外一个学生最近在伦敦组建了 DeepMind,也在 NIPS 研讨会上进行了展示,他们使用深度学习改进了传统的强化学习,以寻找优秀的策略来打游戏,算法的表现和人的策略很相似。 但是,深度学习算法能够成功运行的前提仍然是,项目能够采集到充分大的标注且数据维度足够高或者你的想法足够通用,从某种意义上说,这也给了其他机器学习算法很多机会。比如说,因为隐私原因,服务企业的大数据平台就很难应用深度学习,聚合同类企业的数据来训练自身的机器学习算法是被客户禁止的。另外,在 Kaggle 上最近的很多比赛里,前几名也并没有使用深度学习的算法,即便很多比赛都有 Hinton 的学生 Yichuan Tang 用深度学习参加。深度学习不是万金油;像很多其他方法一样,它需要结合特定领域的先验知识,需要和其他模型结合才能得到最好的结果。这一点也在本次 NIPS 上的多篇学术论文和工程实践中得到了证明。 深度学习的另一局限性是可解释性不强,即便是一流的学者也很难对效果超群的深度学习算法在具体问题上给出具体解释。这有可能成为产品迭代过程中的阻碍。深度学习本身是支持在线学习和数据流,但是相关理论尚待完善。如上所述,深度学习目前主要集中于监督学习,在非监督学习领域,除了 Google 前一段时间公布的用于自然语言处理的 word2vec,还没有很出彩的工作。 从深度学习的研究者身上,我们可以看到,一个好的研究者要对自己的研究有足够强的信念。正如马云所说,好的创业者要坚持自己的信念,而不是盲目跟风。我前不久遇见了 Aria Haghigh,他是 Prismatic 这个创业公司的创始人,同时也是一位名校毕业、成果卓著的机器学习研究者,放弃了教职出来创业。他也懂深度学习,但是对于他的产品和数据来说,他说深度学习并不是首选,因为数据的特性不同。 |