李浩的职业生涯一直致力于完善数字特技。目前,他正在努力解决日趋以假乱真的欺诈问题。
发布者做了一个“数字整容手术”,看起来就好像是埃隆·马斯克(SpaceX CEO兼CTO、特斯拉公司首席执行官、SolarCity董事会主席)在说话。视频中,“埃隆·马斯克”表示他正在竞选美国总统,特斯拉正在研发“空中飞车”,他甚至还打算在新公司用自己的大脑来做实验……每一个信息都堪称“爆点”,极易让人信以为真。不过发布者也在结尾表示,他实际上是想通过这个视频向人们揭示“深度换脸”有多复杂。(视频由李浩编辑)
6月,中国大连。在这个地处黄海之滨,东距北京几百英里,西邻朝鲜隔海相望的城市,李浩正站在一个殊形诡制、绣闼雕甍的建筑中,宛如《007》系列电影中反派盘踞的巢穴。外面的天气炙热难耐,严密的安检随之进行——世界经济论坛新领军者年会正在这里举行。
在李浩的身旁,来自世界各地的政要和CEO们纷纷走向同一个展位。在那里,他们摇身一变,脸被切换成李小龙、尼尔·阿姆斯特朗,亦或奥黛丽·赫本等名人,这一幕使人开怀大笑。这种小把戏可以实时生成,且几乎以假乱真。
这台备受瞩目的“换脸机”可不仅是为了娱乐达官显贵而问世的。李浩希望这些具有影响力的人能够意识到这类被人工智能篡改的视频——“深度换脸”(目前这项技术在国内是封禁状态)——可能给他们和我们其他人带来的后果。
长期以来,虚假信息都是地缘政治破坏活动的惯用手段,尤其是社交媒体的存在使得虚假新闻的传播可谓如虎添翼。当伪视频像假新闻一样容易炮制时,无异于将其武器化。想要左右一场选举、毁掉对手的事业和声誉,或者引发种族暴力……很难想象有比一段逼真的视频更有效的传播工具了,它将像野火一样在Facebook、WhatsApp或Twitter(等一切社交媒体平台)上火速传播,以至于让人们根本无法意识到自己已经上当。
作为数字造假的先驱,李浩担心“深度换脸”仅仅是个开始。尽管他参与开启了一个“眼见并不一定为实”的时代,但他想利用自己的技能来解决无处不在、近乎完美的视频骗局这一迫在眉睫的问题。
李浩并不像其他典型的深度伪造者。他不会潜伏在Reddit (全球最受欢迎的讨论网站)上发布由尼古拉斯·凯奇主演的著名电影“翻拍”而成的色情片。在李浩的职业生涯中,他一直在发展尖端技术,以求伪造人脸更简单、更逼真。他还在许多现代大片中篡改了一些世界上的著名面孔,让数百万人对根本不存在的一个微笑或一个眨眼信以为真。一天下午,他在洛杉矶的办公室里通过Skype聊天时,不经意间提到威尔·史密斯(美国演员、歌手)最近过来探访了他正在拍的一部电影。
演员们经常到李浩所在的南加州大学(USC)实验室进行肖像数码扫描。他们被安排在一个由灯光和机器视觉摄像机组成的球形阵列中,以捕捉它们的脸型、面部表情、肤色和纹理,直至单个毛孔的层次。随后制作电影的特效团队便可以处理已经拍摄好的场景,甚至可以在后期制作中添加一个演员。
如今,这种“数字障眼法”在大制作的电影中非常常见。画面背景通常由数码渲染,在动作场景中,演员的脸被移植到特技演员的脸上也已经见怪不怪。这为观众带来了许多激动人心的时刻,比如在《星球大战外传:侠盗一号》的结尾,十几岁的莱娅公主曾短暂出现,尽管饰演莱娅公主的女演员凯丽·费雪在电影拍摄时已年近60岁。
想要让这些特效看起来不错,通常需要大量的专业知识和数百万美元。但由于人工智能技术的进步,如今要在一个视频中交换两张脸所付出的代价几乎变得微不足道,只需要一台笔记本电脑就可以实现。只要掌握一点额外的技能,你就能让政客、CEO或你的仇敌说出或做到任何你想让他们做的任何事情(就像故事开头的视频中,李浩在我的脸上映射了埃隆马斯克的肖像一样)。
就外貌来看,李浩本人看起来更偏赛博朋克风格(cyberpunk,又称数字朋克),而非日落大道风。他把头发剃成莫西干式,垂向一边,经常穿着黑色t恤和皮夹克,说话时有一个颇为奇怪的眨眼习惯,这暴露了他深夜在电脑屏幕前挑灯夜战的习惯。他并不羞于展现自己的高超技术,他的作品锋芒毕露。在交谈中,他喜欢拿出智能手机给你看一些新鲜玩意。
李浩在德国萨尔布鲁肯长大,父亲是台湾移民,他在法德两国合办的一所高中学习了四门语言(法语、德语、英语和普通话)。时至今日,他犹记得自己决定投入毕生精力来模糊现实和幻想之间界限的那一刻——那是1993年免费节点shadowrocketshadowrocketapple,他在史蒂文·斯皮尔伯格执导的《侏罗纪公园》中看到一块巨大的恐龙化石,当演员们呆呆地看着这只电脑生成的怪兽时,年仅12岁的李浩在那一刻明白了科技让一切成为可能。“我意识到我们现在基本上可以创造任何东西,甚至是不存在的东西”,他回忆道。
李浩在苏黎世联邦理工学院获得博士学位,这是瑞士一所著名的技术类大学,他的一位导师记得他是一个聪明的学生,也是一个不可救药的恶作剧者。他的学术论文附带的视频有时甚至包含对他老师们不太恭维的讽刺。
保罗·沃克的兄弟们为他在《速度与激情7》中的数码形象提供了模板。图片来自维塔数字公司
进入南加州大学后不久,李浩发明了一种面部跟踪技术,用于制作动作电影《速度与激情7》中已故演员保罗·沃克的数码版本。这无疑是一项巨大的成就,因为沃克在之前的拍摄过程中死于一场车祸,片方事先并没有对他进行肖像扫描,而他的角色需要出现在大量场景中。李浩发明的这一技术被用来把沃克的脸粘贴到他的两个兄弟身上,他们在超过200个场景中轮流扮演沃克。
这部电影的票房收入最终高达15亿美元,这也是第一部如此倚重“数字再造明星”的电影。李浩在谈到如今视频骗术变得越来越精湛时提到了沃克的虚拟角色,“连我都分不清哪些是假的,”他摇摇头说。
2009年,在“深度换脸”出现不到10年之前,李浩发明了一种方法,可以实时捕捉一个人的脸,并用它来操纵一个虚拟木偶。这包括使用最新的深度传感器和新软件将人脸及其表情映射到由可变形的虚拟材料制成的面具上。
最重要的是,即使不在一个人的脸上添加几十个运动跟踪标记,这种方法也依然有效,这是一种用于跟踪面部运动的标准行业技术。李浩为开发一款名为Faceshift的软件做出了贡献,该软件随后将作为大学附属产品进行商业化。该公司于2015年被苹果收购,它的技术被用来创建Animoji软件,让你能够在最新的iPhone上变身独角兽或一坨会说话的便便。
一个基于标记的人脸跟踪的例子。来自Faceware Technologies(无标记三维面部表情捕捉解决方案领先供应商)
李浩和他的学生们已经发表了几十篇论文,主题涉及能够反映整个身体动作的化身、高度逼真的虚拟头发以及能够像真实皮肤一样伸展的模拟皮肤。近年来,他的团队利用了机器学习,尤其是深度学习的进步。深度学习是一种利用大型模拟神经网络训练计算机做事的方法。他的研究也被应用到医学上,帮助开发追踪体内肿瘤和模拟骨骼和组织特性的方法。
如今,李浩在教学、电影咨询以及经营一家名为Pinscreen的新公司之间奔波。该公司使用比“深度换脸”技术更先进的人工智能制作虚拟化身。它的应用程序可以在几秒钟内将一张照片变成逼线D头像。它采用了经过训练的机器学习算法,通过对数千张静止图像进行扫描并形成相应的3D头像的一系列训练,最终实现将人脸的外观映射到3D模型上。这个过程通过所谓的生成式对抗网络(GAN)得到了改进(生成式对抗网络并不用于大多数deepfakes技术中)。这意味着一种算法生成假图像,而另一种算法判断图像是否为假,这一过程将逐步改进伪造的可信度。你可以让你的虚拟化身表演愚蠢的舞蹈,试穿不同的服装,你还可以通过智能手机上的摄像头实时控制化身的面部表情。
Pinscreen的前雇员伊曼·萨德吉正对该公司提起诉讼,声称其在2017年的Siggraph会议上伪造了该技术的演示文稿。《麻省理工学院技术评论》(MIT Technology Review)曾收到几位专家和Siggraph组织者的来信,他们驳斥了这些说法。
目前,Pinscreen公司正在与几家知名服装零售商合作,他们将Pinscreen的技术视为一种能够让人们实现不用去实体店就能试穿衣服的契机,这项技术在视频会议、虚拟现实和游戏领域也将大有作为。想象一下《堡垒之夜》(一款游戏)中的某个角色,它不仅长得像你,而且还以同样的方式欢笑和跳舞,是不是很有趣呀?
然而,在数字游戏的背后呈现了这样一个重要的趋势:智能手机正成为人工智能高级图像处理的主要战场,而非电脑。由俄罗斯圣彼得堡一家公司开发的软件——FaceApp,通过提供一键式的手机换脸功能,在吸引数百万用户的同时,最近也引发了不少争议。你可以在照片上添加微笑、去除瑕疵,打乱你或其他人的年龄或性别,更多的应用程序提供了类似的操作,只需点击一个按钮。
并不是每个人都对这项技术的普及前景感到兴奋。专注于视频和人权的非营利组织Witness的主管萨姆格雷戈里表示,李浩和其他人“基本上是在尝试制作一幅移动的、实时的深度伪造图片”,“这就是我担心的威胁级别,当它(变成)一种不太容易控制且更容易被各种各样的参与者所接受的东西时。”
幸运的是,大多数“深度换脸”看起来还是有点不对劲:一张闪烁的脸,一只不稳定的眼睛,或者一种奇怪的肤色,使它们很容易被察觉。但是,正如专家可以消除这些缺陷一样,人工智能的进步势必将自动消除这些缺陷,使得虚假视频更容易被创建且更难被检测识别。
尽管李浩在数字造假方面遥遥领先,但他也担心潜在的危害。“我们正面临着一个严峻的问题,”他表示。
美国的政策制定者尤其担心在明年的总统大选之前,“深度换脸”可能被用来传播更具说服力的假新闻和错误信息。本月早些时候,众议院情报委员会就将如何应对“深度换脸”的威胁询问了Facebook、Google和Twitter,虽然他们都表示正在解决这个问题,但都没有提供解决方案。
美国国防部高级研究计划局(DARPA)是美国军方资金充裕的研究机构,它也对数字操纵的兴起感到担忧。2016年,在“深度换脸”引起广泛关注之前,DARPA启动了一个名为媒体取证(Media Forensics,简称MediFor)的项目,鼓励数字取证专家开发用于捕获被操纵图像的自动化工具。人类专家可能会使用一系列方法来识别照片造假,从分析文件数据的不一致性或特定像素的特征,到寻找物理上的不一致性,如错位的阴影或不可能的角度。
MediFor现在主要专注于识破“深度换脸”。检测从根本上来说比创建要困难,因为人工智能算法可以学会隐藏那些泄露伪造的东西。早期的深度伪装检测方法包括跟踪不自然的眨眼和奇怪的嘴唇运动,但最新的“深度换脸”已经学会自动消除这些小故障。
今年早些时候,DARPA MediFor项目经理马特·塔瑞克要求李浩向MediFor的研究人员展示他的伪造品。这促成了李浩与加州大学伯克利分校教授哈尼·法里德的合作。法里德是世界上最权威的数字取证专家之一。现在,这对伙伴正在玩一场猫捉老鼠的数字游戏,李浩为法里德研发“深度换脸”,让他去捕捉,然后李浩再对其进行改善,以躲避侦查。
法里德、李浩和其他人最近发表了一篇论文,概述了一种新的、更有效的识别“深度换脸”的方法。这种方法依赖于训练一种机器学习算法来识别特定个体面部表情和头部运动的怪癖。如果你只是简单地把某人的肖像粘贴到另一张脸上,这些特征就不会被保留下来。这将需要大量的计算机能力和训练数据——也就是这些人的图像或视频——来制作一个包含这些特征的“深度换脸”。但总有一天这是可能的,“在防守方面,技术解决方案将继续改进”,马特·塔瑞克表示。“但这会使伪造变得更加完美吗?我对此表示怀疑。”
回到大连的世界经济论坛,很明显,人们已经开始意识到“深度换脸”的危险。在我与李浩会面的前一天早上,一位欧洲政客走进“换脸”展位,结果被他的保镖拦了下来,他们担心该系统可能会捕捉到他的详细肖像,让人们更容易伪造他的视频片段。
今年7月,在大连举行的世界经济论坛会议上,一名Pinscreen员工展示了一个实时换脸系统。
看着人们使用展位上的装置时,李浩告诉我:从技术上讲,“深度换脸”是无法检测出来的。“视频只是具有特定颜色值的像素,”他说。
让“深度换脸”日益完美只是一个时间和资源的问题,正如他与法里德的合作所展现出来的,这将变得越来越容易。他表示:“我们正在见证一场数字操作和检测能力之间的军备竞赛,基于人工智能算法的进步,促进了这两方的发展。”
李浩认为,坏消息是在这场博弈里他终究还是会赢。据他估计,若干年后,只需要轻轻一点击,就能制造出无法甄别出的“深度换脸”品。“到了那个时候,我们需要意识到,眼见未必为实。”