设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 技术文摘 查看内容

对话机器学习大神Yoshua Bengio

2014-6-9 15:13| 发布者: joejoe0332| 查看: 7709| 评论: 0|原作者: 张天雷|来自: Infoq

摘要: Yoshua Bengio教授(个人主页) 是机器学习大神之一,尤其是在深度学习这个领域。他连同Geoff Hinton老先生以及 Yann LeCun(燕乐存)教授,缔造了2006年开始的深度学习复兴。他的研究工作主要聚焦在高级机器学习方 ...


问:Bengio教授,在您的论文“Big Neural Networks Waste Capacity”中,您指出梯度下降法在神经元很多的时候没有少量神经元情况下好,我的问题是:增加的这些神经元和链接如何导致结果变坏的?您觉得类似 (Martens 2010)提出的Hessian Free方法能否克服这个问题?("Deep learning via Hessian-free optimization." Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010)

网友回答:增加的神经元和链接,其实引入了更多的曲率,即非对角海森矩阵。梯度下降法,作为一个一阶方法,会忽 略这些曲率(它假设海森矩阵是单位矩阵)。所以神经元多了以后,梯度下降法就会在最小值附近跳来跳去,但总是不能有效的找到最小值。当然二阶方法也不是总 有效果的。(译者注:可参考这篇文章


问:我来自蒙特利尔,一个创业公司,我对您的工作非常感兴趣,一个问题,貌似机器学习专家以及学术界对那些工业 界的竞赛,比如Kaggle,不是很感兴趣啊。我知道获胜的概率确实比较低,让投入的时间和产出不成比例。而且很多机器学习爱好者都对此趋之若鹜,没有专 家的参与感觉很受伤。一个机器学习领域的专家,难道不是几个小时就可以做出来一个比较不错的结果么?有没有这么一个场景,开放,协同,专家和爱好者一起工 作的?

网友回答:这有几个专家赢得Kaggle和Netflix的例子:12

  机器学习专家不参与这种竞赛的原因,可能是他们那些好的解决办法,总是会有企业买单,不必参加类似的比赛来竞争。还有,专家从来都是乐于挑战极限 的,而不是来面对日常生产环境里面那些非常令人烦躁的真实数据。参加这种竞赛,很大部分的时间都用来对数据进行预处理,而且,浅层模型如SVM、随机森林 和boost方法很容易就能得出一个可接受的结果,这种做法没有什么学术价值。除了奖金方面,Kaggle这种竞赛的设置也是有问题的,可以参考这个非常 有启发性的视频,大部分有能力可以独立思考的人都不会参与Kaggle。长话短说,竞赛只有能够彰显它在某个研究课题上的意义,才能吸引专家的参与。


问:我听说深度学习模型在训练过程中,很多地方都需要专家经验,手动调节,各种技巧,不知道有没有比较自动化的超参数学习方法呢?

答:超参数优化已经在深度学习领域中初见端倪,主要用在自动搜索模型的参数。所 谓超参数,就是机器学习模型里面的框架参数,比如聚类方法里面类的个数,或者话题模型里面话题的个数等等,都称为超参数。它们跟训练过程中学习的参数(权 重)是不一样的,通常是手工设定,不断试错调整,或者对一系列穷举出来的参数组合一通枚举(叫做网格搜索)。深度学习和神经网络模型,有很多这样的参数需 要学习,这就是为什么过去这么多年从业者弃之不顾的原因。以前给人的印象,深度学习就是“黑魔法”。时至今日,非参数学习研究正在帮助深度学习更加自动的 优化模型参数选择,当然有经验的专家仍然是必须的。

  超参数的学习早已有之,但是直到最近才做出一点进展。这里面比较早期的主要贡献者(在应用到机器学习非参数学习领域之前)是Frank Hutter团队,他在2009年的博士论文就是关于软件系统里面如何用非参数学习来代替人手设定参数。我之前的博士生James Bergstra和我一起在这个问题上也研究过几年,我们提出了网格搜索的一种简单的取代方法,称作随机采样(random sampling),实验结果非常好,也很容易实现。

  随后我们就将Hutter在其他领域使用过的非参数学习方法引入了深度学习,称作序列优化(sequential optimization),发表在NIPS 2011,我的另外一个联合培养博士生 Remi Bardenet和他的导师Balazs Kegl(前同事,现在法国)也参与了这个工作。

  这个工作被多伦多大学的研究人员看好并继续深入,其中有Jasper Snoek(Hinton教授的学生),Hugo Larochelle(我毕业的博士生)以及Ryan Adams(哈佛大学教授),他们的工作发表在NIPS2012。文中展示了他们利用自动化的方法,改进了Krizhevsky,Sutskever和Hinton教授非常著名的ImageNet物体识别神经网络算法,刷新了这个数据集的学术记录。

  Snoek等人开发了一个软件,被相关学者广泛使用,叫做spearmint,我最近发现Netflix在他们用深度学习做电影推荐的新项目中也用到了它。

网友补充答案:补充一点贝叶斯优化以及Hyperopt的相关内容,贝叶斯优化和专家参与相结合绝对是自动学习参数的好办法,参见这个ICML调试卷积神经网络的内容。Hyperopt有个Python库,提供ConvNets,NNets以及未来会涉及到机器学习库scikit-learn中一批分类器的自动化参数学习方法。


问:据我所知,您是机器学习领域唯一公开的以深度学习来研究社会学的科学家。在你那篇大作“Culture vs Local Minima”中,您的阐述非常精彩,我有如下几个问题期待您的解答:

  1. 文章中您描述了个体是如何通过浸入社会来自学习的。众所周知,个体通常无法学到很多大局观念。如果您是这个世界的主宰,你有能力,设定一些观念,让所有个体从童年就开始学习,您会如何选择这些观念?
  2. “文化浸入”的一个必然结果,会让个体意识不到整个学习过程,对它来讲世界就是这个样子。作家David Foster Wallace曾经生动的将其比喻为“鱼需要知道水是什么”。在您的观点里,这种现象是神经网络结构的副产品还是它的确有一些益处?
  3. 您觉得文化趋势是否会影响个体并且导致它们赖在局部优化情况?比如各种宗教机构和启蒙哲学之间的争端,家长式社会和妇女参政之间的冲突。这种现象是有益还是有害的?
  4. 您对于冥想和认知空间如何看待?

答:我不是社会学或者哲学科学家,所以大家在看待我的回答的时候,需要用分析和{敏感词}的眼光。我的看法是,非常多的个体固守自己的信念,因为这些信念已经变成了他们身份的一部分,代表了他们是怎么样的一个群体。改变信念是困难而且可怕的。我相信,我们大脑的很大一部分工作,就是试着让我们的所有经验和谐并存,从而形成一个良好的世界观。从数学的角度来讲,这个问题和推理(Inference)有关系, 即个体透过观察到的数据,来寻找合适的解释(隐变量)。在随机模型里,推理过程通过一种给定配置的随机探索完成(比如马尔科夫网络是完全随机探索)。冥想 之类的行为,从某种程度上帮助了我们提升推理能力。冥想的时候,有些想法灵光一现,而后我们发现它具有普适意义。这恰恰是科学进步的方法。

 

问:在讨论和积网络(sum product network,SPN)的时候,Google Brain小组的一个成员告诉我他对可计算的模型(tractable model)不感兴趣,您对此有何看法?

答:各种学习算法都不同程度地有很多不可计算性。通常来讲,越具有可计算性的模型的模型越简单,但是从表达能力上来讲就越弱。我并没有确切的计算过,和积网络将联合分布拆分之后,会损失多少计算能力。通常来讲,我所知道的模型都会受到不可计算性的影响(至少从理论上看,训练过程非常困难)。SVM之类的模型不会受到此类影响,但是如果你没有找到合适的特征空间,这些模型的普适性会受到影响。(寻找是非常困难的,深度学习正是解决了寻找特征空间的问题)。

网友补充:什么是模型的可计算性?

就和积网络来讲,可计算性的意思就是,模型的推理能力在加入更多变量的时候,在计算要求上不会有指数级别的增加。可计算性是有代价的,和积网络只能表现某些特定的分布,详情可以参考Poon和Dmingo的论文。

实际上,所有的图模型都能够表示成因子的乘积形式,深度信念网络也一样。图模型的推理,其可计算性主要取决于图的宽度(treewidth)。因 此,低宽度的图模型被认为是可计算的,而高宽度则是不可计算的,人们需要使用MCMC、信念传播(BP)或者其他近似算法来寻求答案。

任何的图模型网络,都可以转换成类似和积网络的形式(一种算数电路,AC)。问题在于,在极坏的情况下,转换生成的网络通常都是指数级别。所以,哪 怕推理是跟网络规模线性相关的,在图模型大小增长的情况下,计算性也会呈指数下降。但是,值得一提的是,有一些指数级别的,或者说高宽度的图模型可以被转 换成紧致(compact)算数电路,使得我们仍然可以在其上进行推理,即可计算,这个发现曾经让图模型社区非常振奋。

我们可以把AC和SPN理解成一种紧致的表示图模型上下文无关的方式。它们能够将一些高宽度的图模型表示成紧致形式。AC和SPN的区别在于,AC 是通过贝叶思网络转换而来,SPN则是直接表示概率分布。所以,取代传统图模型的训练,我们可以将其转换成紧致电路(AC),或者学出来一个紧致电路 (SPN)。

 

酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部