敲黑板，带你了解硬核知识：到底什么是机器学习？

摘要：现在，在大家的眼里，有了“人工智能”，掌握了“机器学习”或者“神经网络”的电子系统，仿佛就有了自己学习进化、独立思考解决问题的可能性，甚至有了超越人类的无限智慧与魔力。

机器学习就是一种可以让机器根据历史经验自动改进自身的学习算法。

——汤姆·米切尔（Tom Mitchell）, 《机器学习》，1998年

什么是机器学习

现在，在大家的眼里，有了“人工智能”，掌握了“机器学习”或者“神经网络”的电子系统，仿佛就有了自己学习进化、独立思考解决问题的可能性，甚至有了超越人类的无限智慧与魔力。

而大家提起拥有智能的机器，往往还怀有一种科幻小说式的神秘与敬畏，一边忍不住对未知的憧憬，想要从钥匙孔中窥探潘多拉盒子里面藏着怎样的秘密，一边又担心打开了这个盒子，会放出人类无法掌控的可怕力量。

那么，在第三波人工智能浪潮中扮演重要角色的“机器学习”，到底是什么，又该怎么准确定义呢？

图灵在《计算机器和智能》中首次提出了“学习机器”（Learning Machines）的概念，以极具预见性的眼光洞察到能否实现人工智能的关键，很可能就取决于能否或者说何时解决“如何让机器拥有学习能力”这个问题。

曾经人们试图绕过“机器学习”这个障碍，尝试尽可能发挥机器本身的特长—典型如高速的计算能力和海量的存储能力，用逻辑符号的推理来模拟替代人脑的思考、用人工总结在外部给机器灌输知识等方式去寻找获得智能的可能性，但全部尝试都遇到了巨大的困难，均没有获得明显突破。

相比起自然界之中无穷无尽的自然规律，比起人类历史发展达数千年的庞大知识积累，机器引以为傲的运算速度和人类总结灌输知识的效率都显得如此微不足道。

经过各种方向的探索尝试，今天的人工智能主流研究方向，不得不又重新回到了死磕“如何让机器学会‘学习’”这个课题上，人工智能的学者们基本已经接受了必须让机器具有通过历史数据修正改进自身的能力、有接受外界输入的刺激并获得自我进步的能力，才是迄今最有希望能够通往人工智能的路径。

正确认识机器学习

机器学习并不是魔法，也不是科幻想象中那种把能机器从一张白纸逐渐教育成智慧机械生命的神奇手段，它其实与人类从懵懂到睿智的教育过程几乎没有相同之处，这里的“学习”是取其“从经验中自我改进”的含义。

机器学习问题大多需要处理者根据实际问题的特点和自身的经验去解决。因此，常会由于模型决策函数、参数和结构选择不当、优化策略或者算法不对、训练数据不够等原因，导致机器学习程序常不能交付令人满意的结果。

第一个在学术上符合今天机器学习思想的定义，是由司马贺在1959年所提出的：“如果某个系统可以从经验中改进自身的能力，那这便是学习的过程。”

这句话十分的简洁却极为有力，直接揭示了机器学习最本质的特征“从经验中改进自身”。

1998年，卡内基梅隆大学的汤姆·米切尔（Tom Mitchell,1951—）教授在他撰写的《机器学习》一书中，对司马贺的定义进行了一系列补充，额外增加了几个具有可操作性的辅助描述符号，将其英文原文部分摘录如下：

如果按中文的语言习惯来解读，这个定义可以理解为：“假设某项评价指标可作为系统性能的度量（Performance，简称P），而这个指标可以在某类任务（Task，简称T）的执行过程中随着经验（Experience，简称E）增加而不断自我改进的话，那么我们就称该过程‘Process＜P, T, E＞’是一种学习行为”。这个定义里明确列出了“任务T”“度量P”“经验E”“学习过程Process＜P, T, E＞”这几个符号，使得它读起来显得有一点拗口，但这些符号都是必要的，它们构成了机器学习一种最基础的形式体系，只要再结合几个具体例子，就可以使得这个定义变得形象。

人工智能另一个备受关注的应用方向“汽车自动驾驶”，机器学习采用各种路况下正确的驾驶操作的概率（度量P）来评价系统性能，在不同的路况的行驶过程（任务T）中，无人车是基于机器学习训练出来的模型实现自动驾驶的，而不是依赖程序员的代码编程来判断各种路况，因为程序编码几乎不可能穷举出所有的可能的路况，必须根据长期行驶的路况和操作记录的分析结果，根据人类对各种路况应对的操作经验（经验E）来修正这个驾驶模型，然后由这个模型来决定在图像、速度等传感器提供的信息下，机器应该采取什么样的驾驶操作才是正确的。

上面这个机器学习的定义和例子，是从机器学习的本质出发，即从它“是什么”、要“做什么”的角度来解释机器学习这个概念。

还有另一种在教科书中常见的表达形式，是从机器学习的过程元素入手，将机器学习分解为学习其执行过程中的三个部分，以机器学习是“怎么做”的角度来定义它的概念。

在李航老师的《统计学习方法》一书中，就提出机器学习由“模型”“策略”和“算法”三个要素构成：

机器学习＝模型+策略+算法

● 模型是指机器学习所要产出的内容，它一般会以一个可被计算的决策函数或者条件概率分布函数的形式存在。把未知的新数据代入到这个模型中计算，就会得到符合真实情况的输出结果。

● 策略是指要按照什么样的准则进行学习，具体一点是按照什么样的准则选择出最优的模型。从宏观角度讲，一般我们都会以“减少模型的输出结果与真实情况差距”作为学习的准则，这里的“差距”同样也是以一个可被计算函数的形式来描述的，被称为“损失函数”。

● 算法是指如何依靠历史数据，把正确的模型中涉及的未知参数都找出来。在确定寻找最优模型的策略后，机器学习的问题便归结为寻找出模型最优参数的优化的问题。

以“怎么做”来解释和理解机器学习具有更丰富的可操作性，本章稍后讲解机器学习是如何训练模型的实战中，会承接这个思路，深入机器学习的工作过程，继续讨论机器学习模型、策略和算法的相关内容。

接下来，我们会系统性地探讨一系列关于机器学习的话题，希望在讨论中获得该领域中某些关键问题的答案，如果你对以下4个问题很感兴趣，欢迎你在《智慧的疆界：从图灵机到人工智能》一书中继续了解。

1）机器学习是什么？有什么价值？

2）它能解决哪些问题？

3）它会经过哪些步骤来解决这些问题？