你所不知道的 AI 进展

日期： 2019年10月29日

人工智能现在是常见词汇，大多数人可能觉得，它是学术话题，跟普通人关系不大。

但是实际上，AI 突飞猛进，正在脱离实验室，进入日常生活。仅仅是现在的技术水平，就足以模糊现实与虚拟的界限，颠覆一般民众的认知。

（图1：2018年10月，世界第一幅 AI 生成的肖像画，拍卖成交价43.25万美元。）

为了让普通人了解 AI 的进展，谷歌的机器学习专家格里高利·萨普诺夫（Grigory Sapunov）写了一篇通俗的科普文章，介绍目前的技术成果。这盘文章非常精彩，有大量的图片，加上一些简单的解释，信息量很大，对于了解技术动态很有帮助。

（图2：谷歌的机器学习专家格里高利·萨普诺夫）

下面就是那篇文章的翻译，比较长，图片很多，但是值得耐心读完。我保证，有些内容一定会让你感到吃惊。

另外，插播一条活动消息。大家知道，国内最大的在线教育平台之一的腾讯课堂，赞助了我的个人网站。他们最近启动了"腾讯课堂101计划"，推广优质的技术教育资源。 大家可以留意一下本文结尾的免费活动信息，帮你掌握开发网页和手机 App，提高技术水平。

一、图像处理

人工智能最早是从图像处理开始的。图像处理是一种常见任务，智能要求比较高，需要使用 PhotoShop 之类的软件人工编辑，一般的算法解决不了。

1.1 对象补全

2017年，日本科学家提出了一种图像的对象补全模型。经过训练，模型可以补全图片上缺失的部分。

（图3：图像的对象补全模型）

上图中，左边是原始图片，然后把中间的花盆涂掉，输入模型。模型会自动补全缺失的部分（右图），由于它不知道，那里有一个花盆，所以只会根据没有涂掉的部分，补上地板和扶手。

下面是更多这样的例子。涂掉的部分，模型都会补上，哪怕它根本不知道，那里原来是什么。

（图4：图像的对象补全示例）

Nvidia 公司将这个模型做成了产品，放在网上。你可以到它的网站，上传一张图片，然后涂掉一些部分，让网站替你补全。

（图5：涂掉沙发旁边的茶几）

有的图像软件已经应用这项技术，去除人像脸上的斑点。

1.2 背景处理

背景处理指的是，将前景物体从图片分离出来，再对背景进行加工。目前，已经有很好的智能算法可以去除图片背景。

（图6：图片的背景去除）

在模型内部，图片会转成像素的色块。下图的浅紫色块就是前景物体，然后再把这些像素提取出来。

（图7：背景去除模型）

这个模型也已经做成了线上服务，大家可以上传图片感受一下它的效果。

既然可以去除背景，那当然就可以更改背景，为图片合成打开方便之门。

（图8：更改图片背景）

1.3 样式转换

人工智能还能够识别图片的风格样式（即像素的变化规律），将其套用在另一张图片。

（图9：原始图片）

上图是两张原始图片，第一张是梵高的名画《星夜》，第二张是普通的风景照。模型可以提取第一张图片的风格，将其套用在第二张图片。

（图10：套用梵高的《星夜》风格）

其他名画的风格，同样可以套用。

（图11：图像的风格转换）

1.4 图像着色

一旦识别出图片中的物体，模型就可以统计不同物体的像素颜色规律，然后就能推断黑白照片可能的颜色，从而实现照片着色。

（图12：黑白照片的着色）

网上也有免费的着色服务，大家可以体验。

二、GAN 方法

2.1 简介

GAN 是"生成对抗网络"（Generative Adversarial Networks）的缩写，它是一种革命性的提升人工智能模型效果、生成虚拟图像的方法。

原理很简单，就是两个神经网络互相对抗。一个神经网络负责生成虚拟图像，另一个神经网络负责鉴定假图像。理论上，如果 GAN 训练成功，那么生成的假图像与真图像将无法区分。2014年，这种方法提出以后，快速发展，目前效果已经可以乱真。

（图13：GAN 的改进速度）

上图是过去几年，GAN 生成的虚拟人像。可以发现，每过一年，图片越来越大，细节越来越丰富，越发接近真实人像。它的工作方法也是如此，第一步生成一张低分辨率图片，然后慢慢放大，依次修改每一个像素，确定该像素怎样才能最大概率通过鉴定器。

GAN 不仅能生成虚拟图像，还能生成音频、文本，甚至是化合物分子。AI 模型可能创造出来的任何东西，都能使用 GAN 提升效果。GitHub 有一个仓库，专门收集不同用途的 GAN，目前已经有500多种模型。

2.2 StyleGAN

目前，生成虚拟人像效果最好的模型是 Nvidia 公司的 StyleGAN。下面两张头像，你能分辨哪张是虚拟的，哪张是真实的吗？

（图14：GAN 虚拟人像）

这是网站截图，你可以去那个网站试试看，能猜对多少张。需要提醒的是，这是2018年底的模型产物，随着模型进化，迟早将无法分辨真假。

GAN 不仅能生成人像，实际上可以生成任何图像。下面是 BigGAN 模型生成的各种图像，图片里的东西都是不存在的。

（图15：BigGAN 模型生成的虚拟图像）

2.3 图像翻译

一种图像通过 GAN 转变为另一种图像，称为图像翻译。空拍照片变成地图、黑白照片变成彩色照片，都是图像翻译的例子。

pix2pix 是图像翻译的开源工具，它可以让黑夜变成白天，示意图变成实物图。

（图16：图像翻译）

也可以让春天变成夏天，晴天变成雨天。

（图17：图像翻译）

图像翻译的难点在于，它需要有成对的示例（源图像和相应的目标图像），告诉模型应该怎么翻译，这些示例可能很难创建。但是反过来，只要有配对的示例，就可以翻译图像，不管这种翻译是否合理。下面是两只小猫翻译成对应的豹子、狮子和老虎。

（图18：图像翻译）

CycleGAN 模型还支持跨域翻译，将照片翻译成油画，斑马翻译成马。

（图19：图像翻译）

Nvidia 开发了一个 GauGAN 软件，可以在线试玩。用户只需手绘一个示意图，软件就能生成一张对应的风景照片。

（图20：GauGAN 将示意图变成照片）

2.4 人像翻译

图像翻译用于人像，就是人像翻译。StarGAN 模型可以翻译面部属性，比如头发的颜色、性别、肤色等。

（图21：脸部属性的改变）

还可以把其他人的表情移植到你的脸上，下图分别是愤怒、快乐、恐惧的表情翻译。

（图22：表情的改变）

SC-FEGAN 是人像翻译的开源软件，可以让你编辑人像，比如加上刘海，去除墨镜等等。

（图23：人像编辑软件 SC_FEGAN）

2.5 文本到图像生成

GAN 最惊人的成果之一，大概就是根据文本生成图像。用户提供一个句子，软件生成对应的图像。原始文本"一只红中透白、长着非常短的尖嘴的鸟"，可以得到下面的图像。

（图24：根据文本生成图像）

论文甚至提到，将来存在可能，根据剧本直接生成一部电影。

三、视频生成

图像处理逐渐成熟以后，人工智能业界的关注重点就转向了视频。

从一个视频生成另一个视频，这就叫视频翻译。目前比较成熟的两个方向是运动传递和面部交换。

3.1 运动传递

运动传递指的是，将一个人的动作（包括身体、眼睛或嘴唇的动作）翻译到另一个人身上，使得另一个人出现一模一样的动作。

2018的论文《Everybody Dance Now》，给出了一个模型，可以将舞者的动作移植到任何人身上。

（图25：动作传递）

上图中，蓝衣女子的跳舞视频完全是假的，是将左上角舞者的动作套用在她身上，自动生成的。

NVIDIA 公司的开源软件 vid2vid 更为强大，可以生成高分辨率的、连贯的逼真视频。

（图26：vidvid 软件）

3.2 脸部生成

脸部生成指的是，根据一张脸的表情和动作，重建另一张脸。最著名的例子是虚拟的奥巴马演讲。2017年，华盛顿大学的团队发表了一段奥巴马的演讲视频。奥巴马其实从未做过这个演讲，是将别人的表情和口型套在他脸上生成的，语音也是合成的。

（图27：虚拟的奥巴马演讲）

这种伪造的视频被称为 Deepfake（深度伪造），具有很大的欺骗性，许多在线平台都禁止上传这一类视频。

（图28：伪造的特朗普演讲，将喜剧演员的表演变成特朗普自己在讲。）

（图29：深度伪造的普京）

2018年出现的《深度视频肖像》更进了一步，生成的视频不局限于虚拟的面部表情，还会头部旋转、眼睛凝视和眨眼，是 3D 的肖像重构。

（图29：深度视频肖像）

这些技术还在继续发展，现在你可以给出任意文本，从任何你指定的对象嘴里说出来。甚至只凭一张照片，就可以生成一段表情变化的视频。

（图30：一张照片生成各种表情）

3.3 中国的实践

国内的人工智能视频生成，并不落后于国外。换脸应用 ZAO 只需用户上传一张照片，就能把影视剧主人公的脸换掉，好像你本人在表演电影一样。

（图31：换脸应用 ZAO）

2018年，新华社与搜狗合作推出了虚拟新闻主播，具有真人的形象，带有声音、面部表情和动作，在电视上播报新闻，已经开通了英语、俄语、阿拉伯语的主持人。

（图32：虚拟新闻主播）

3.4 视频渲染

除了视频生成，人工智能在视频渲染上也取得了很大进展。

Nvidia 公司2018年展示了实时光线追踪 RTX 技术。这项技术用人工智能预测光线的变化，从而不用耗费大量计算去追踪光线，因此可以实时渲染出高画质的 3D 动画。这对于视频游戏有重大意义。

下面是使用这项技术的 Unreal Engine 4，实时渲染出的一个女子的3D 动画，可以一边计算生成，一边播放，完全没有延迟。

（图32：实时渲染的动画）

实时光线追踪技术还可以用于自动驾驶，在白天和黑夜的不同时间，不同的路面和环境下，预测出暴雨、风雪和强烈的眩光导致的光线变化，对驾驶做出调整。

四、文本和声音处理

最后，简单提一下，人工智能在文本和声音处理领域的进展。

（1）语音合成

谷歌在2018年推出了智能助手 Google Duplex，它会根据你的日程，自动打电话去餐厅订座位。谷歌 CEO 说，这个机器人的对话能力，使得对方完全没有发现这是机器人。

（2）音乐合成

OpenAI 基金会推出的 MuseNet，通过学习数十万段 MIDI 音乐，能做到使用10种乐器，生成一段4分钟的音乐。它的官网有这些音乐的下载，相当动听。

（3）自动评论

据报道，使用 Yelp 网站的数据进行训练的模型，可以自动生成餐厅评论。

我喜欢这个地方，一直来这里已经好多年。它是与朋友和家人相聚的好地点，我喜欢这里的食物和服务，从未有过糟糕的经历。

我吃了烤蔬菜汉堡配薯条！哦，很好吃！

我和我的家人都是这个地方的忠实粉丝。工作人员超级好，食物也很棒。鸡肉很好，大蒜酱也很完美。配水果的冰淇淋也很美味。强烈推荐！

上面这些都是机器生成的评论。

（4）智能邮件

Gmail 会根据电子邮件的来信内容，自动生成三种不同的回复，让用户选择。如果只是简单回应，用户不用自己动手写。

Gmail 的另一个功能是，根据用户已经写的内容，预测接下来会写的句子，供用户选择。

五、小结

毫无疑问，人工智能是很酷的技术，创造出了神奇的产品，有着难以想象的巨大应用前景。

但是，人工智能也是一把双刃剑，模糊了现实与虚拟之间的界限，把我们带上了一条不可预测的道路。作为个人，了解这些技术的进展和潜力，有助于保持一份清醒，享受技术之福的同时，避免它带来的一些副作用。

（正文完）

前端学习资料免费送

时间过得很快，2019年接近尾声了。你今年有没有达到年初设定的目标？技术水平提升了多少？是不是感叹时间太少，永远有学不完的东西？

下面是前端开发的10份免费专题资料，既有基础内容，也有进阶内容，都是实战一定会用到的东西。不管你是刚开始学习前端，还是已经从事了0～3年的开发实务，这些资料相信都会让你有所收获。

HTML 专题

JavaScript 进阶

ES6 专题

TypeScript 深入剖析专题

VUE 入门到进阶实战专题

React 专题

底层源码剖析专题

Node.js 专题

服务器部署专题

大型实战项目解析

这10份专题资料，来自《腾讯课堂101计划》重点推广的优质机构"金渡教育"。金渡教育培训人次累计超过了40000，好评度98%，很多学员就职于 BAT 等一线互联网企业，许多薪水超过了 20K。 只要微信扫描识别下面的二维码，就能免费获取上面这些最新的前端资料。

金渡教育专注于做前端进阶培训。他们在腾讯课堂这个平台上，有一门精品课程 《Web 前端进阶班试听课》。如果你看了上面资料，想了解更多，或者想接受系统的前端培训，还可以 0 成本得到这门课的试听。

目前正值"双十一"，他们提供各种优惠，是腾讯课堂上性价比非常高的一门课程。

（完）

2022.08.02: DNS 查询原理详解
通过 DNS 查询，得到域名的 IP 地址，才能访问网站。
2022.06.03: 字节序探析：大端与小端的比较
今天谈谈一个重要的计算机概念，大家可能都听说过它，但是很少深究，那就是字节序（Endianness）。
2022.02.04: 万兆家庭网络的时代
最近，我想将家里的网络设备，都升级到千兆。
2021.12.07: 为什么 Web3 与区块链有关
互联网迄今有两个阶段：Web 1.0 和 Web 2.0。

留言（48条）

muji 说：

到最后，ai是否可以取代人类？

2019年10月29日 09:03 | # | 引用

大嘴巴闭嘴说：

分享竟然不支持钉钉！

2019年10月29日 09:07 | # | 引用

cK 说：

看完之后，我只想到了一个词，欺骗，完全想不到它好的地方

2019年10月29日 09:10 | # | 引用

东说：

很好的科普文章！????

2019年10月29日 09:11 | # | 引用

Kevin 说：

人工智能的发展远远超出了我们的想象。

2019年10月29日 09:20 | # | 引用

bbb 说：

很好。。但也很可怕。。越来越真实，可能会让人类混淆什么是客观的真实与虚拟。。这里面也许会产生一种新的经济利益，类似于鸦片，人类可以完全投入到这个虚拟的世界中过另外一种自己的人生。。。越来越近了。。

2019年10月29日 09:42 | # | 引用

wuwao 说：

感谢介绍这篇论文。

2019年10月29日 09:51 | # | 引用

vi da a mou r 说：

看得如芒在背，想起蜘蛛侠英雄远征，你将分不清你所处的环境是真实还是虚拟。那么最后将是人性善获胜还是人性恶获胜。

2019年10月29日 09:52 | # | 引用

redford 说：

最后这些技术游戏行业全部能用上
哈哈哈哈哈一定要好好锻炼，活到全息游戏上线

2019年10月29日 10:34 | # | 引用

DC 说：

此条评论由 AI 生成

2019年10月29日 11:20 | # | 引用

zentby 说：

人类越来越不容易分辨真实与虚拟，未来了解真相也愈加不易。

2019年10月29日 11:21 | # | 引用

苏耀峰的Blog 说：

喜欢TensorFlow

2019年10月29日 13:15 | # | 引用

Sam.Z 说：

便利的同时也感觉人类（普通人）会越来越难，AI还真是把双刃剑呀。

2019年10月29日 15:37 | # | 引用

翟码农说：

人类社会除了往前走，似乎也无路可退。

2019年10月29日 22:16 | # | 引用

钱铭说：

能力如果不能得到很好的管理，带来帮助也将变为伤害

2019年10月30日 09:26 | # | 引用

堂说：

请问，那个样式转换（梵高画）有没有在线玩的地方？

2019年10月30日 10:16 | # | 引用

snowqinag 说：

有一天, 所有的摄像头都失去了意义

2019年10月30日 11:17 | # | 引用

laokaide 说：

那么问题来了，30岁高龄的普通程序员如何入门AI相关技术和领域

2019年10月30日 13:14 | # | 引用

joy 说：

视频动画在5G时代将会有很大发展

2019年10月30日 14:58 | # | 引用

展翼骐骥说：

敢问博主，AI跟区块链会有怎样的结合？？

2019年10月31日 00:09 | # | 引用

Orange 说：

看完这我发现我做前端都没什么意义了以后直接生成页面就好了

2019年10月31日 10:11 | # | 引用

da0 说：

懂的人看内核的技术, 不懂的人看个热闹

2019年10月31日 11:24 | # | 引用

xkloveme 说：

只想到两个字,可怕

2019年10月31日 15:16 | # | 引用

MegaTrends 说：

假如一台机器有了和人一样的智力，那 “他”能获取一个合法的社会身份吗？

2019年10月31日 16:52 | # | 引用

Ashin 说：

我想知道有些技术发展的初心是什么，似乎早就忘了初心

2019年10月31日 17:03 | # | 引用

桥边驿语人说：

超乎想象

2019年11月 1日 10:05 | # | 引用

little 说：

好多网站是墙外的，从未敢翻墙过...

2019年11月 1日 10:44 | # | 引用

微wx笑说：

技术越来越强大，也越来越可怕。

2019年11月 1日 11:20 | # | 引用

fakenew 说：

没有一条属于“AI”

2019年11月 1日 16:39 | # | 引用

又菜又浪说：

图像处理而已，也算AI？

2019年11月 2日 10:36 | # | 引用

鑫说：

有一期再说正在开发脑部神经芯片，如果加上人工智能，未来可能会出现小说里面的游戏仓，而人类就是靠大脑神经去调动躯体工作，如果分离，不靠躯体供应营养，是不是可是永。。。

2019年11月 4日 10:51 | # | 引用

老五说：

这么说起来，现在使用的人脸解锁还能安全吗？想起上次说的，可以从拍摄的高清照片中提取到指纹，细思极恐！

2019年11月 4日 17:50 | # | 引用

DHL 说：

AI，唉.

2019年11月 4日 19:23 | # | 引用

chxuzzu 说：

以后不用手动抠图去背景了。

2019年11月 5日 16:13 | # | 引用

山石松说：

2.3的CycleGAN http://nvidia-research-mingyuliu.com/gaugan/
去尝试了一下，没有任何反应，不知道是不是用法不对。

2019年11月 6日 14:39 | # | 引用

cc 说：

引用muji的发言：
到最后，ai是否可以取代人类？

人脑有1千多亿个神经元，比电脑复杂多了

2019年11月11日 17:08 | # | 引用

徐彬说：

然后就是 terminator 哈哈哈哈

2019年11月22日 20:15 | # | 引用

诸葛亮说：

太可怕了

2019年12月 9日 14:12 | # | 引用

国服第一獭兔说：

这是技术，我觉得这与AI没什么关系，AI应该有自己的思维意识，否则智能根本谈不上

2020年1月 1日 18:14 | # | 引用

KUKUMUMU 说：

引用cc的发言：
人脑有1千多亿个神经元，比电脑复杂多了

当然，人是不可能战胜机器的，就像你能跑过汽车吗

2020年7月 6日 18:29 | # | 引用

wilon 说：

解决了机器人看听说的问题，接下来...

2020年7月15日 11:57 | # | 引用

杰哥说：

随着科技发展，ai是否有取代人大部分工作的可能性，如果取代了，那替换下来的劳动力该何去何从？

2020年9月30日 10:09 | # | 引用

gyh 说：

我感觉目前所谓的“人工智能”，只是说，我们让计算机学会了“猜”，猜像素，猜动作，通过“猜”，我们可以让计算机解决一些模糊的问题。至于取代人类，光靠“猜”还不够，还要能“想”，能“认识”。

2020年10月 3日 22:51 | # | 引用

iiiiiii 说：

“人工智能” 不行啊
他根本不知道什么时候需要/不需要做什么
就像机器人学会了扫地但他不知道什么时候扫地
也就是这个机器人不会主动工作永远是被动的所以我根本不知道他在哪里智能了

2021年1月20日 11:55 | # | 引用

东山郎说：

你暴露了我们的实力，我们还需要你们继续努力

2021年3月31日 17:43 | # | 引用

蔡徐坤说：

感觉现实世界就是一台具有人类无法想象的算力的计算机模拟出来的

2021年10月24日 00:12 | # | 引用

Bowen 说：

这时还没有GPT

2024年2月 7日 16:22 | # | 引用

凹凸说：

从2024.2.21回来，chatgpt，sora，AF2等等的出现，让人更加感慨AI发展之快。并且，AI不再是一个大玩具，而是像是新世纪的电力一样，逐渐向各行业渗透。

2024年2月21日 08:35 | # | 引用

我要发表看法

您的留言（HTML标签部分可用）

您的大名：

«-必填

电子邮件：

«-必填，不公开

个人网址：

«-我信任你，不会填写广告链接

记住个人信息？

«- 点击按钮

你所不知道的 AI 进展

一、图像处理

1.1 对象补全

1.2 背景处理

1.3 样式转换

1.4 图像着色

二、GAN 方法

2.1 简介

2.2 StyleGAN

2.3 图像翻译

2.4 人像翻译

2.5 文本到图像生成

三、视频生成

3.1 运动传递

3.2 脸部生成

3.3 中国的实践

3.4 视频渲染

四、文本和声音处理

五、小结

前端学习资料免费送

文档信息

相关文章

留言（48条）

我要发表看法