摘要:人工智能作为当今最前沿的科技之一,正在以令人惊叹的速度改变着我们的生活。从智能语音助手到无人驾驶汽车,从 AI 绘画到机器学习,它为我们打开了一个充满无限可能的未来。本栏目将以通俗易懂的方式,用视频和文字给孩子讲述人工智能的原理、应用及其对社会的深远影响。
欢迎来到科普中国特别推出的寒假精品栏目“给孩子的高新科技课”!
人工智能作为当今最前沿的科技之一,正在以令人惊叹的速度改变着我们的生活。从智能语音助手到无人驾驶汽车,从 AI 绘画到机器学习,它为我们打开了一个充满无限可能的未来。本栏目将以通俗易懂的方式,用视频和文字给孩子讲述人工智能的原理、应用及其对社会的深远影响。
快跟我们一起开启这场 AI 之旅吧!
先来看视频:
以下为文字版本:
(阅读大约需要 5 分钟)
这是一位英国小女孩苏珊,这是她的爸爸,亚当。在这对父女的照上有一个相同点,仔细看一看他们的照片,你能找到这个共同点吗?
AI 生成图片好吧,揭晓答案。共同点就是,这两张照片都是 AI 生成的,没有什么苏珊和亚当父女,他们的身份是瞎编的。
看到这样的照片,你可能会觉得有点惊讶,毕竟在过去,游戏、动画电影里的人物做的再逼真,还是能一眼看出这是 AI 合成的人像。但现在这两张图片上的人,看着几乎跟真人差不多。
除了生成人类照片,AI 还可以根据我们的需求画出各种各样风格的照片。今天这一集,我们就来说一说 AI 是怎么样画出这样的图片的?
生成式对抗网络
AI 生成图像的背后,有一项非常重要的技术——GAN。
GAN 是 Generative Adversarial Networks 的首字母缩写,意思是生成式对抗网络。它是 2014 年,伊恩·古德菲洛和他的同事一起提出的。GAN 听起来很高大上,但它的原理其实非常好理解。
假如我们要建立一个 GAN,专门画人脸照片。在这个网络里面,有两个重要的成员,生成器和鉴别器。
生成器的任务就是负责生成人像图片,这些生成的图片,会和真人的照片混在一起,让鉴别器去做判断。鉴别器要识别出,哪些是生成器生成的,哪些是真正的人类照片。
如果生成器生成的照片如果骗过了鉴别器,那么生成器就得分,反之就是鉴别器得分。
可以想象,最开始的时候,生成器生成的照片其实非常简单,放在真实照片里面一眼就能看出来。
但随着成千上万次的学习训练,生成器生成的图片会越来越接近真实的人类照片。在这个过程中,鉴别器为了得分,也需要提升自己的鉴别能力。
而为了骗过越来越聪明的鉴别器,生成器又要继续提升自己的能力,就这样,经过几千万次的训练,AI就能画出极其逼真的人像了。
图库版权图片,转载使用可能引发版权纠纷当然了,除了画人像,人们也可以让 GAN 去画不同风格的图像。
比如让 GAN 生成毕加索风格的画,那它的鉴别器就不再需要判断图片是不是像真人了,而是需要判断出哪些图片是毕加索的真迹,哪些是 AI 生成的作品,在这样的训练下,就可以画出不同类型风格的图片了。Style GAN 模型做的就是这件事。
除了 GAN,还有一种图像生成技术——Stable Diffusion。最近比较火的 MidJourney 就是通过这种模型生成的。简单地说,Stable Diffusion 能够将一堆杂乱无序的噪声图像一步步去噪声,最终生成预期图片的过程。
当然了,我们今天熟悉的图像生成软件还有一个很重要的功能,根据自然语言描述的内容生成图像。
这个过程可不简单,但幸好有两项技术,让这件事成为了可能。
首先是图像识别技术。在过去几十年里,无论是自动驾驶、还是搜索图片中的物品,它们都依赖于 AI 对图像上内容的识别。在这个过程中,人类已经对大量图片上的内容进行了标注,并且用它们训练 AI,让 AI 能够识别出各种各样的东西。
另一项重要技术,就是自然语言识别了。在过去几十年时间里,人们也一直在想办法让 AI 看得懂我们写的字,了解我们在说什么。这让 AI 能够更好地理解我们给定的文本的含义。
当你说“树上有只猫头鹰”的时候,计算机能够知道你说的是一种鸟,而不是树上有一只“猫”一个“头”,外加一只“鹰”。
在图像识别和自然语言处理技术日趋成熟之后,一种叫做跨模态检索的技术出现了。
模态说的是数据的存在形式,比如文本、图像、视频等形式。跨模态检索能够将不同模态的数据进行关联对应,比如将文本中的“杯子”和图片中杯子的图像建立关联。
在跨模态检索技术的帮助下,AI 就可以把我们输入的文本信息转化成图像信息了。
在今天,基于 GAN、stable diffusion 的 AI 图像生成技术已经有了非常多的应用。除了在图像生成上,在生成音乐、视频、文字生成上面都有极其广泛的应用。
甚至从 2022 年末开始,很多公司就放出风声,要用 AI 画师代替人类画师。而在各种各样的社交媒体上,我们也可能看到 AI 生成的图片和视频了。
当然了,对于 AI 生成图片、视频之类的事情,有一些人也表示了担忧,毕竟,它们生成的照片视频实在是太逼真了,有些不怀好意的人,可能会拿这些照片进行诈骗,或者造谣生事。
很多 AI 公司也考虑到了这一点,开始对提供的 AI 服务做出了一些限制。而很多国家也纷纷开始考虑,要完善对 AI 生成式内容的法律法规。
相信随着规则的健全以及技术的进一步发展,AI 技术给我们带来的利会远远超它们的弊,AI 终将会更好地为人类服务。
策划制作
本文为科普中国-创作培育计划作品
出品|中国科协科普部
监制|中国科学技术出版社有限公司、北京中科星河文化传媒有限公司
作者丨北京云御纪文化传播有限公司
审核丨秦曾昌 北京航空航天大学 自动化科学与电气工程学院 副教授
策划丨符思佳
责编丨符思佳
审校丨徐来 林林
来源:科普中国