再来重新认识到底什么是机器学习

2017-3-6 21:32| 发布者: joejoe0332| 查看: 1388| 评论: 0|原作者: techcrunch.cn|来自: techcrunch.cn

摘要: 作为史上最富盛名的计算机科学家之一，阿兰·图灵（Alan Turing）早在 1950 年一篇有关计算机的文章中，就提出了“机器人能思考吗？”这一问题。从科幻小说到研究实验室，我们很早以前就提出了这样一个问题，即人 ...

媒体有关机器学习的轮番报道或许让人误以为我们刚刚发现了什么全新的东西，但事实上这项技术的年代几乎与计算机一样久远。

作为史上最富盛名的计算机科学家之一，阿兰·图灵（Alan Turing）早在 1950 年一篇有关计算机的文章中，就提出了“机器人能思考吗？”这一问题。从科幻小说到研究实验室，我们很早以前就提出了这样一个问题，即人工智能的诞生是否有助于我们发现自我意识的起源，或者从更广泛的意义上讲，有助于发现人类的具体作用。不幸的是，人工智能的学习曲线过陡，尽管如此，我们仍然希望通过追根溯源，能真正明白人工智能究竟是什么东西。

如果我的大数据足够大，是不是我也能创造智能？

我们复制自身的首次尝试就是人为干扰充满信息的机器，希望能获得最好的结果。说真的，曾几何时，有关意识的主流理论是，它源于汇聚在一起的海量信息。有些人认为，谷歌的诞生预示着这种愿景走向巅峰。然而，尽管谷歌对 30 万亿个网页建立了索引，我并不认为人们觉得搜索引擎会问我们世上是不是真的有上帝。

相反，机器学习的妙处恰恰在于，我们不是将计算机假装变成人类，然后不断灌输知识，而是帮助计算机进行推理，令其将自己学到的东西归纳总结为新的信息。

虽然神经网络、深度学习和强化学习（reinforcement learning）这些概念都不太好理解，但这些都是机器学习。它们都是创建可对新数据进行分析的广义系统的方法。换言之，机器学习只是诸多人工智能方法的一种，神经网络和深度学习之类的东西只是工具而已，可以被用于创建应用范围更广、更好用的构架。

在上世纪 50 年代，我们的计算能力是有限的，大数据还是一个陌生的字眼，我们的算法也相当初级。这意味着，我们推进机器学习研究的能力相当有限。然而，这并未阻止人们勇于尝试的脚步。

1952 年，亚瑟·塞缪尔（Arthur Samuel）利用最基本的人工智能形式——Alpha-Beta 剪枝算法——开发了一个跳棋程序。这种方法通过运用代表数据的“搜索树”（search tree）来减少计算量，但这并不是解决一切问题的最佳方法。多年以前，随着弗兰克·罗森布拉特（Frank Rosenblatt）感知器（perceptron）的问世，神经网络终于露出庐山真面目。

复杂的声音模型

弗兰克·罗森布拉的感知器的确具有超前性，充分利用神经系统科学来推进机器学习研究。从理论上讲，这个创意就像下图所示。

若想搞清楚图中所表达的意思，首先必须明白大部分机器学习问题可以被分解为分类（classification）或回归（regression）。分类器（Classifier）一般用于对数据进行归类，而回归模式则主要是推算我们的趋势，然后进行预测。

弗兰克·罗森布拉的感知器即是分类器的一个典型例证 ——它提取了一套数据，然后将其分为多个数据集。在这种情况下，两个具有不同重量的特征的存在，足以让这个物体被归为“绿色”类别。今天的分类器可以将垃圾邮件从收件箱中分离出去，帮助银行发现欺诈活动。

罗森布拉的感知器模式利用一系列输入手段，思考长度、重量、颜色等特征，然后给每一种特征指派重量。接着，这个模型不断调节重量，直至输出的重量也减少至那种程度，而误差也在可接受的范围内。

例如，一个人可以输入数据，物体（碰巧是苹果）的重量是 100 克。计算机并不知道物体是苹果，但感知器可以通过已知数据集来调节分类器的重量，最终将该物体归类为像苹果的物体或不像苹果的物体。一旦分类器被调整，它可以在数据集上重新使用，前提是这个数据集之前从未暴露过，被用于分类未知物体。

连人工智能研究人员都被这种东西搞懵了

感知器只是机器学习所取得的诸多早期进步之一。神经网络有点像是协同工作的感知器的大合集，酷似我们大脑和神经工作机制——也是神经网络这一名称的由来。

在之前的几十年，人工智能领域的进步始终与复制大脑工作机制有关，而不是复制我们头脑中对其内容的认识。基本或“浅层”神经网络至今仍在使用之中，但深度学习就像“下一个大事件”一样备受欢迎。深度学习模式是具有多层的神经网络。对于这种让人极不满意的解释，人们正常的反应是，会问我“层”的意思究竟是什么。

若想搞清楚这一点，我们必须要记住，我们只能说计算机可以将猫咪和人类分成两个不同的组群，但计算机本身不能像人类那样处理这种任务。机器学习构架则充分利用抽象概念来完成任务。

对于人类来说，脸上有眼睛；对于计算机来说，它看到的是一张张具有明暗像素的面孔，这些像素构成了我们对线条的想象。深度学习模型的每一层可以让计算机识别相同物体的另一个抽象水平。像素之于线条，就像是 2D 之于 3D 几何。

尽管显得异常笨拙，计算机已经通过了图灵测试

人类与计算机评估世界的方式存在着根本的不同，这对我们创建真正人工智能的尝试构成很大的挑战。图灵测试已经概念化，用以评估我们在人工智能领域取得的进步，但它很大程度上忽略了这种事实。图灵测试是行为主义者测试，旨在评估计算机模仿人类输出的能力。

但是，模仿和概率推理充其量只是智能与意识之谜的一部分。有些人认为，我们在 2014 年成功通过了图灵测试，当时机器让 30 位科学家中的 10 位误以为，在持续 5 分钟的交流中，主角是人而不是键盘。

我应该穿上夹克抵御 AI 寒冬吗？

尽管取得了进步，但科学家和创业者很快就在人工智能的能力上做出了过多的承诺。由此导致的繁荣与萧条周期通常被称为“AI 寒冬”。

我们能用机器学习从事一些令人难以置信的事情，比如对自动驾驶汽车车载屏幕上的物体进行分类，通过卫星图对农作物产量做出估计。漫长的短期记忆有助于机器搞清楚一些事情的时间序列，比如说视频中的情绪分析。强化学习从游戏理念中获取灵感，其中包含一种通过奖励来辅助学习的机制。强化学习正是 Alpha Go 可以战胜围棋世界冠军李世石的利器。

尽管取得了所有这些进步，但机器学习的最大秘密在于，尽管我们往往知道某个问题的信息输入与输出，但我们始终不能确定这个模型是如何从输入过渡到输出的。研究人员将这种挑战称为机器学习的“黑箱问题”。

在变得心灰意冷之前，我们一定要记住，人类大脑本身就是一个“黑箱”。我们并不知道大脑的确切工作机制，不能在每个抽象水平下对其进行分析。如果我要求你分析大脑并搞清楚大脑中的记忆，我会被外人看作疯子。然而，我们不能就此认为，游戏已经结束，相反，游戏才刚刚开始。

翻译：皓岳来自：techcrunch.cn