gitbook/AI技术内参/docs/3944.md

# 152 | 2017人工智能技术发展盘点

    今天是大年初一，在这里先给你拜个年，祝新年新气象，新年新开始！

在今天这个辞旧迎新的日子里，我们对过去一年的人工智能技术发展做一个简单的盘点，梳理思路，温故知新。

**2017年，对于人工智能整个领域的发展，是举足轻重的一年**。这一年，人工智能的各个领域都蓬勃发展，我们目睹了一些在AI发展史上的标志性事件。比如，从人工智能的技术上看，人工智能系统AlphaGo Master与人类世界实时排名第一的棋手柯洁展开围棋人机对决，最终连胜三盘；从人工智能的投入上看，很多互联网公司都先后成立单独的人工智能研发机构，像阿里巴巴的达摩院；从云服务和人工智能结合的发展来看，2017年谷歌在这一方向发展迅猛，不仅在中国开设了研发中心，还宣布已经有超过万家企业和组织正在使用谷歌的人工智能接口。

今天我希望能够从几个关键领域和发展方向出发，在繁多的科技进步中，理清关键信息，对过去一年的产业动态和发展做出点评，给你一个清晰而简单的信息参考。

## 人工智能在棋牌上的迅猛发展

**2017年的一个标志性的事件，无疑是AlphaGo在围棋这项运动中的“收官”表现**。虽然2016年AlphaGo战胜李世石之后，很多人依然对人类能够在围棋这个古老的运动中有所发挥保留着期望，也给予其他围棋选手以希望。然而，5月27日，AlphaGo Master与当时人类世界实时排名第一的棋手柯洁展开人机对决并且直接连胜三盘，可以说这个结果完全摧毁了人类在这个项目上的希望。随后，AlphaGo团队的负责人德迈斯⋅哈萨斯（Demis Hassabis）宣布，乌镇围棋峰会将是AlphaGo参加的最后一场赛事，这也意味着AlphaGo以完美的表现“收官”。

几个月后的10月，DeepMind团队在《自然》杂志上发表了一篇文章，介绍了AlphaGo Zero，一个没有用到人类棋局数据的AlphaGo，比以前任何击败人类的版本都要强大。通过跟自己对战，AlphaGo Zero经过3天的学习，以100:0的成绩超越了AlphaGo Lee的实力，21天后达到了AlphaGo Master的水平，并在40天内超过了所有之前的版本。这种完全不依靠人类棋局的办法，并且能够通过自我训练达到最高人类水平，可以说是让人工智能界目瞪口呆。我们在之前的分享中曾经详细介绍了这篇论文的核心内容（[精读AlphaGo Zero论文](https://time.geekbang.org/column/article/654)）。

从2016年开始到2017年年底，短短一年多的时间内，AlphaGo经历三次重大进化，并以非常完整的形式在《自然》杂志上总结最后成果，不得不让人惊叹人工智能在这一方向上发展的神速。

另外一项成就和AlphaGo在围棋上所取得的成就旗鼓相当，那就是来自卡内基梅隆大学团队的“**利不拉图斯**”（Libratus）在宾夕法尼亚州匹兹堡的“里维斯”（Rivers）赌场战胜四位德州扑克顶级选手获得最终胜利。这个胜利背后的一些原理已经被团队发表在了NIPS 2017的论文中，并且这篇论文也获得了NIPS 2017的最佳论文。我们在之前的NIPS 2017最佳论文推荐中也介绍了这方面的内容（[精读NIPS 2017最佳研究论文之三：如何解决非完美信息博弈问题？](https://time.geekbang.org/column/article/3211)）。相比于围棋来说，德州扑克这种非对称信息博弈的难度应该说更大，而卡内基梅隆大学团队的成绩在未来应该会有更大的发挥空间。

## 计算机视觉的发展

自从和深度学习紧密结合以来，计算机视觉在最近的5～6年里迅猛发展。2017年，在像素级别的分割工作上有了一个不错的进展。通俗地讲，就是给定一个输入的图像，我们希望能够不仅分析这个图像里究竟有哪些物体，还能够对于图像中的每一个像素，知道其属于哪一个物体，也就是我们经常所说的，把物体从图像中“抠”出来。

来自Facebook人工智能研究院的明星团队在ICCV上的两篇最佳论文可以说给这个问题提供了非常漂亮的解决方案。

第一篇的重要进展是Mask R-CNN这篇文章中，作者们提出了“两个阶段”的策略。第一个阶段叫做“区域提交网络”（Region Proposal Network），目的是从图像中提出可能存在的候选矩形框。第二个阶段，从这些候选框中使用一个叫RoIPool的技术来提取特征从而进行标签分类和矩形框位置定位这两个任务。Mask R-CNN主要是针对第二部分进行了更改。也就是说，不仅仅在第二部分输出区域的类别和框的相对位置，同时，还输出具体的像素分割。

和很多类似工作的区别是，像素分割、类别判断、位置预测是三个独立的任务，并没有互相的依赖。这是作者们认为Mask R-CNN能够成功的一个重要的关键。之前的一些工作，像素分割成为了类别判断的依赖，从而导致这几个任务互相有了干扰。我们在介绍ICCV 2017最佳论文中已经对这篇文章有了详细的论述（[精读2017年ICCV最佳研究论文](https://time.geekbang.org/column/article/2681)）。

另外一个重要工作则是“焦点损失（Focal Loss）”，这也是图像分割的一个重要进展。如果说Mask R-CNN是“两个阶段”的的代表作的话，焦点损失则是在“一个阶段”工作上有了显著进展。焦点损失要解决的问题，就是对输入图像进行物体识别和语义分割这两个任务。和两阶段的模型不同的是，一个阶段模型是希望直接从输入图像入手，希望能够从输入图像中提取相应的特征，从而可以直接从这些特征中判断当前的图像区域是否属于某个物体，然后也能够一次性地找到矩形框的位置用于定位这个物体。

这种思路虽然直观，但是有一个致命的问题，那就是对于一个输入图像来说，大量的区域其实并不包含目标物体，因此可以认为是学习过程中的“负例”（Negative Instance）。如何能够有效地学习这么一个“不均衡”（Imbalanced）的数据集是这一种思路需要考虑的问题。

焦点损失提出了一个新的目标函数，用于取代传统的交叉熵（Cross Entropy）的目标函数。这个新的目标函数的主要目的就是让一个阶段模型能够在正负例比例非常不协调的情况下，依然可以训练出较好的模型，使得一个阶段模型在效果上能够和两个阶段模型媲美。我们在之前的论文分享中已经详细介绍过这个工作的内容（[精读2017年ICCV最佳学生论文](https://time.geekbang.org/column/article/2717)）。

## 人工智能研究机构的发展

2017年我们见证了越来越多的公司和机构设立人工智能研发团队。

10月11日，在阿里云栖大会上阿里巴巴 CTO 张建锋宣布阿里巴巴成立全球研究院。达摩一成立就打算在一系列的领域做出成绩。从宣布的战略看来，达摩希望涉足量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、人机自然交互、芯片技术、传感器技术、嵌入式系统等，涵盖机器智能、智联网、金融科技等多个产业领域，整个布局可谓雄心壮志。

第一步的计划是在全球各地组建前沿科技研究中心，包括亚洲达摩院、美洲达摩院、欧洲达摩院，并在北京、杭州、新加坡、以色列、圣马特奥、贝尔维尤、莫斯科等地设立不同研究方向的实验室，初期计划引入100名顶尖科学家和研究人员。这样的布局会对阿里的中长远发展有什么帮助，我们拭目以待。

很多公司在人工智能团队的布局也可谓争先恐后。一个比较突出的代表是今日头条。互联网的新贵今日头条2017年扩张明显。2月14日，前微软亚洲研究院常务副院长马维英离职微软，加入今日头条，出任副总裁，管理今日头条人工智能实验室。之后，任职华为诺亚方舟实验室主任的李航博士也选择离开了华为，加入今日头条人工智能实验室。如果加上之前比较知名的李磊、王长虎，今日头条的阵容可谓兵强马壮。这样的人员配置能够在今后的发展中对今日头条产生多大的影响呢？这一点还需要时间的检验。

年底，谷歌的人工智能团队在李飞飞博士和李佳博士的带领下，高调在北京开设分部，成立一个致力于人工智能的中国中心。在公开的新闻稿里，谷歌认为北京有在未来技术领域拥有发言权的野心，这种野心推动了中国政府的大力投入，让国内在人工智能领域展现出日益增长的实力。谷歌已在北京有数百名从事研发和其他工作的员工。谷歌中国人工智能中心将由李飞飞和李佳领导。李飞飞是斯坦福大学人工智能实验室的负责人，领导着谷歌云业务的人工智能部门。李佳是谷歌云业务的人工智能部门研发主管。

## 小结

今天我为你简单梳理了2017年人工智能领域发生的一些事情，希望能够帮助你去回顾这一年。**人工智能的蓬勃发展，表现在每天都有太多的新技术新动态，这里我们只是以点带面，让你感受到过去这一年行业的飞速变化**。

对于2017年人工智能领域的发展，你有怎样的感受和体验呢？

欢迎你给我留言，和我一起讨论。