眼见不再为实AI正在生成一个足以乱真的世界

齐鲁晚报     2019年04月19日
  这组人像全部是由AI技术生成的。
  一直以来,我们判断事件真假的标准之一就是眼见为实,但随着人工智能技术的发展,这一准则很有可能失灵。近来,一项被誉为近十年来机器学习领域最有趣的突破——GAN(生成式对抗网络)出现,GAN可以自动生成图像,包括自动篡改图像,很有可能扰乱我们的认知。

  本报记者 任志方    
    
  “P”出一个完全不存在的人的照片
  英伟达公司是一家美国人工智能计算公司,这家公司在GPU(图形处理器)领域的绝对垄断性,和英特尔在CPU领域的地位相似。近来,英伟达推出了一个令人惊叹的图像生成器,它使用了GAN,用户只需点击几下即可绘制出近乎真实的图像。该软件能够立即将几行草草勾勒的轮廓图,变成华丽的山顶日落图景。此前,英伟达曾对外公布了一项AI技术:他们建立了一个全球性的生成对抗网络,让两个人工智能系统通过“创造图像”和“判断图像”来制作一批不存在的人物照片。
  在研究中,他们先是给人工智能提供了真实的人物照片进行制作,从一幅模糊的照片开始,让AI逐步提高照片的分辨率,直到能够制作出高分辨率的逼真人物照片。在这个过程中,通过不同人物照片的组合,最终它会“P”出一个完全不存在的人物的照片。
  该系统之所以能用AI创建人脸,是因为使用了GAN这个相当新型的算法。人造神经网络是为模仿人脑中神经元活动而开发的系统。而在生成式对抗网络中,两个神经网络本质上是相互对立的。其中一个网络起到生成算法的作用,另一个则挑战第一个网络的结果,发挥对抗作用。
  英伟达新发布的黑科技GauGAN可以比作“智能画笔”,它能够填充粗略分割图中的细节。用户能够绘制自己的分割图并构建场景,并用沙子、天空、海洋或雪等标签对每个部分进行标记。这个深度学习模型接收过一百万张图像的训练,能够对风景画进行填充,从而呈现精彩绝伦的效果:让你仿佛置身一座池塘中,附近的树木和岩石等元素都倒映在水中。如果将分割标签从“草”切换为“雪”,整个图像也会随之变为冬季场景,之前青葱的绿树也将凋谢。这就像一本填色图册里的图画,描绘了树木、太阳和天空的位置,然后神经网络会根据其对真实图像的了解,为图片填充所需的细节和纹理及反射、阴影和颜色。
  尽管GAN对真实的物理世界缺乏理解,它却能够产生以假乱真的效果。接受过真实图像训练的判别网络知道真实的池塘和湖泊会反射光线,通过判断网络的反馈,生成网络也将学会如何模仿这一效果。
  AI被用来模拟人声、利用音频生成视频
  真人与机器仿真的界限越来越模糊,是人工智能领域目前热议的话题。
  就像科幻片《银翼杀手》中所描述的,未来我们甚至可能难以区分人类和AI。华盛顿大学的科学家研发了一个机器学习系统,不仅能够合成一个人的声音和发声机制,同时还能将人工生成的口型与视频整合到一起。这个系统能伪造任何人的声音,并与视频整合。
  研究者利用美国前总统奥巴马的演讲视频训练这个机器学习系统,让系统的神经网络学会如何将各种语音特征与对应的口型联系在一起。他们先生成模型的唇动方式,在3D姿态匹配的帮助下,将唇动与奥巴马的视频整合在一起,最终生成的视频令人难辨真伪。
  今年2月,由特斯拉CEO马斯克等人创立的非营利性人工智能研究公司OpenAI推出了一个人工智能语言模型——GPT-2,只需要提供少量的信息,它就可以根据这些信息,编写出足以以假乱真的新闻。
  其他研究机构也将目光投向类似技术。斯坦福大学的一个研究小组发布了Face2Face系统。如果说华盛顿大学的技术是利用音频生成视频,那么Face2Face则是利用视频生成视频。该系统利用网络摄像头捕获用户的面部表情和口型,而后利用这些信息让锁定视频发生实时“变异”,与用户的表情和语音完美匹配。
  基于人工智能的音频-视频转化是一条双行道。麻省理工学院的一个团队反其道行之,利用无声视频生成音频。这项技术性能出众,足以愚弄观众。研究者接受采访时说:“当你用手指滑过酒杯,所发出的声音能够揭示杯中的酒量。通过算法模拟这些声音,我们能够获取物体形状和材质的关键信息,以及它们与世界交互时产生的力和运动。”
  麻省理工学院的研究小组表示,他们可以利用这项技术,增强机器人的态势感知能力,机器人本能地知道混凝土很硬,草很软,也因此知道踩上去会发生什么。如果想预测与周遭世界进行物理互动可能产生的结果,具备预测声音的能力无疑是非常重要的一步。
  如何识破人工智能“造假术”
  据统计,大量的合成信息占据了互联网,如合成声音、生成图像、AI合成不存在的人像等,约占网络信息的30%。“眼见为实”已经靠不住了。
  有专家认为,利用GAN生成假视频有可能在三年内实现,AI会改变我们所信赖的证据——图像和音频。不过,GAN还需要更多研究做进一步突破,目前,GAN在生成“单一”图像时可以表现得很好,但无法同时画猫、狗及其他影像,它距离制造复杂的数据还有很长的路。
  那么,如何预防未来网络上利用人工智能技术流传假新闻,并对数字影像的真假做出判别呢?目前,国内有研究机构正探索基于深度学习的抗编辑视频水印技术。在这项技术中,水印在视频中是隐藏着的,而且不能够被编辑,人工智能的深度学习技术被用来嵌入这些“入木三分”的水印。
  美国国防部高级研究计划局启动了一项名为“Media Forensics”研究计划,希望开发一项技术可以自动评估图像或视频的真实性,识别出是否经过编辑、带有操控目的的影像。
  除此之外,麻省理工学院的研究团队还研发出了一种“动作显微镜”的技术,通过放大视频片段,观察像素的颜色变化,就可以查看出一些细微动作,例如脉搏的微小变化。所以,可以检查视频中人脸的色彩差异,去对照这个人是否有脉搏,借此判断是真人还是计算机生成的。




上一篇 下一篇