问:教授您好,我在各种项目里应用最多的还是决策树和随机森林。您能给讲讲深度学习对比而来的好处么?
答:我曾经写过一篇文章,
阐述为什么决策树的普适性比较差。这里面的核心问题是,决策树(以及其他机器学习算法)将输入空间划分,而后每个区域分配独立的参数。因此对于新的区域以
及跨区域的情况,算法的效果就会变差。你没办法学到这么一个函数,能够覆盖比训练数据要多的独立区域。神经网络没有这个问题,具有全局特性,因为它的参数
可以被多个区域公用。
问:在深度学习领域,您有什么好书或者论文推荐?
答:好文章太多了,我们组内有一个给新同学的阅读列表。
问:今日的机器学习技术是否会成为明日人工智能的基石?人工智能发展的最大困难在哪里?是硬件还是软件算法的问题?您对于Ray Kurzweil'预言2029年机器会通过图灵测试怎么看? 他还写了一篇打赌的文章呢。
答:我不敢说2029年机器会通过图灵测试,但是我能确定的是,机器学习会成为研发未来人工智能的核心技术。
人工智能发展的最大问题,是改进机器学习算法。要想得到足够好的机器学习算法,有很多困难,比如计算能力,比如概念理解上的。比如学习一些联合概率。我觉得我们在训练超大规模神经网络的优化问题上,还是浮于表面。接着就是增强学习,非常有用,亟待改善。可以参看一下最近DeepMind公司的工作,他们用神经网络来自动进行八十年代的Atari游戏,非常有意思。文章发表在我组织的NIPS的讨论会上。
问:您对Jeff Hawkins对深度学习的批评有什么看法?Hawkins是On Intelligence一书的作者,
该书2004年出版,内容关于大脑如何工作,以及如何参考大脑来制造智能机器。他声称深度学习没有对时间序列建模。人脑是基于一系列的传感数据进行思考
的,人的学习主要在于对序列模式的记忆,比如你看到一个搞怪猫的视频,实际是猫的动作让你发笑,而不是像Google公司所用的静态图片。参见这个链接
答:时间相关的神经网络其实有很多工作,递归神经网络模型对时间关系隐性建模,通常应用于语音识别。比如下面这两个工作。
[1] http://www.cs.toronto.edu/~hinton/absps/RNN13.pdf
[2] http://papers.nips.cc/paper/5166-training-and-analysing-deep-recurrent-neural-networks.pdf
还有这篇文章:http://arxiv.org/abs/1312.6026.
自然语言处理中的序列也有所考虑:http://arxiv.org/abs/1306.2795
问:深度学习到底在什么领域很有前途?什么领域是它的弱项呢?为什么栈式RBM效果很好?其原理能否解释清楚?还是仍然类似魔术黑箱一样?聚合学习和深度学习之间有何联系?
答:完全不是魔术黑箱。我相信我已经给出了栈式RBM或者自动编码器为何有效的解释。参见我和Courville 以及Vincent的文章:http://arxiv.org/abs/1206.5538
除了dropout技术的解释以外,我不知道聚合学习和深度学习之间的关系,可以参考这篇文章: http://arxiv.org/abs/1312.6197
问:根据我的理解,深度神经网络训练上的成功跟选取正确的超参数有关系,比如网络深度,隐含层的大小,稀疏约束值等等。有些论文基于
随机搜索来寻找这些参数。可能跟代码写得好也有关系。有没有一个地方能让研究者找到某些特定任务的合理超参数呢?在这些参数的基础上,可能更容易找到更优
化的参数。
答:可以看上文关于超参数的部分。James Bergstra 继续了这部分工作。我觉得有这么一个数据库,存储着许多推荐的超参数设置,对于神经网络训练是非常有好处的。Github上面的Hyperopt项目,
做了类似的事情。hyperopt项目聚焦于神经网络、卷积网络,给出一些超参数设置的建议。以简单的因子分布的形式给出。比如隐含层的数量应该是1到
3,每一层的隐含单元数目应该是50到5000。其实超参数还有很多,以及更好的超参数搜索算法等等。下面是更多的参考论文:
http://arxiv.org/abs/1306.2795
http://arxiv.org/abs/1312.6026
http://arxiv.org/abs/1308.0850
http://papers.nips.cc/paper/5166-training-and-analysing-deep-recurrent-neural-networks.pdf
问:有没有什么应用,传统机器学习方法都失败了,而深度学习成功了?
答:有一个构造出来的应用,由两个简单的任务构成(物体检测,逻辑推理),该应用聚焦于隐变量的内在表示,传统黑盒机器学习算法都失败了,有一些深度学习算法结果还不错,但也有深度学习算法失败了。可以看看这篇文章。这个应用有意思的地方在于它比那两个任务随便一个都复杂得多。
问:Bengio教授,在深度学习中,有那么一类方法,采用比较高级的数学如代数和拓扑集合。John Healy几年前声称通过通过范畴论(Category Theory)改进了神经网络(ART1)。您对于这类尝试有什么看法?是儿戏还是很有前途?
答:可以看看Morton和Montufar的工作,参考附加材料:
http://www.ece.unm.edu/~mjhealy/
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.98.6807
热带几何以及概率模型中的热带几何
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.242.9890
问:Bengio教授,我即将完成计算神经学的博士,我对于神经科学和机器学习交叉产生的“灰色地带”非常感兴趣。您觉得脑科学的那些部分和机器学习有关?您想要了解脑科学的什么方面?
答:我认为,理解大脑的计算过程跟机器学习强相关。我们尚未知晓大脑的工作机制,它的高效学习模式会对我们设计和实现人工神经网络有很大的指导意义,所以这个是非常重要的,也是机器学习领域和脑科学的交叉区域。
英文原文:http://www.reddit.com/r/MachineLearning/comments/1ysry1/ama_yoshua_bengio/
转自 http://www.infoq.com/cn/articles/ask-yoshua-bengio-2?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global
|