(照片能被fake-想想早期的ps技术。视频能被fake,声音也能被fake。)
视频伪造意味着您无法相信看到的一切。现在,声音伪造可能意味着您不能再相信自己的耳朵了。深入了解了换脸视频Deepfake后,又发现了一个新世界,Voice Deepfake,能够伪造声音,想想真是刺激呢.
内容详情
什么是Audio Deepfake
我们大多数人都看过 视频Deepfake,其中使用了深度学习算法,将一个人替换为另一个人的头像。而现在,则是轮到音频了。
音频深度伪造是指使用与真实人可能无法区分的“克隆”声音来产生合成音频的情况。 “就像是声音的Photoshop,” Resemble AI首席执行官Zohaib Ahmed 关于公司的语音克隆技术说到,但是,技术不佳的Photoshop作业很容易被揭穿。
我们与之交谈的一家安全公司表示,人们通常只能猜测音频Deepfake是真实的还是伪造的,准确率约为57%,只稍微比翻硬币猜正反面稍微准确一些。 此外,由于这么多的语音记录都是低质量的电话通话(或在嘈杂的位置录音),因此可以使音频深度伪造更加难以区分。
声音质量越差,分辨那些伪造的声音就越难。
Voice成功案例
实际上,对合成音频有巨大的市场需求。根据艾哈迈德所说,“投资回报率非常高。”
在游戏方面尤其如此。过去,语音是游戏中无法按需创建的组成部分。即使在具有实时呈现的影院品质场景的交互式标题中,与非播放角色的语言交互也始终基本上是静态的。
但是现在,技术已经赶上了。制片厂有潜力克隆演员的声音并使用文字转语音引擎,使角色可以实时说出任何话。
在广告,技术和客户支持方面还有更多传统用途。在这里,重要的是要发出真实的人的声音,并在没有人为输入的情况下进行个人和上下文响应。
语音克隆公司也对医疗应用感到兴奋。当然,语音替换在医学上并不是什么新鲜事,斯蒂芬·霍金(Stephen Hawking)在1985年失去自己的语音后就使用了机器人合成的语音。但是,现代语音克隆有望带来更好的效果。
2008年,CereProc(网址:https://www.cereproc.com/en/home)发布了一个网页,允许人们键入消息,然后以前总统乔治·布什的声音说出来。
CereProc首席科学官Matthew Aylett说:“ Ebert看到了,然后想,'如果他们能复制布什的声音,他们就应该能够复制我的声音。' 然后,埃伯特要求公司创建替代语音,他们通过处理大型语音记录库来实现。”
艾利特说:“这可能是人类第一次这样做,这是一次真正的成功。”
近年来,许多公司(包括CereProc)已与ALS(肌萎缩性侧索硬化症)协会合作 ,向患有肌萎缩性侧索硬化症的人提供综合的声音,参考霍金。
合成音频的工作原理
语音克隆现在处于大爆发的状态,许多公司正在开发工具。类似于resemble(网址:https://www.resemble.ai/)和Descript(网址:https://www.descript.com/)的在线演示程序,任何人都可以免费尝试。您只需录制出现在屏幕上的短语,然后在几分钟内创建您的声音模型。
您可以感谢AI(特别是深度学习算法)能够将录制的语音与文本进行匹配,以理解构成您的语音的成分音素。然后,它将使用由此产生的语言构造块来近似未听到您说的单词。
基本技术已经存在了一段时间,但是正如Aylett指出的那样,它需要一些帮助。 他说:“复制声音有点像做糕点。”
“这很难做,并且有多种方法需要手动调整才能使其正常工作。”
开发人员需要大量记录的语音数据才能获得合格的结果。然后,几年前,闸门打开了。计算机视觉领域的研究被证明是至关重要的。科学家开发了生成对抗网络(GANs),该网络可以首次推断并基于现有数据做出预测。
艾里特说:“我的模型现在可以使马变成斑马,而不是计算机看到一匹马的图片并说'这是一匹马'。”
“因此,语音合成的迅猛发展得益于计算机视觉的学术研究。” 语音克隆的最大创新之一就是总体上减少了创建语音所需的原始数据量。过去,系统需要数十甚至数百小时的音频。
但是,现在,仅几分钟的内容就可以产生胜任的声音。
实际操作
在“ resemble”和“ Descript”上测试了工具, 并创建了语音克隆。Descript使用最初称为Lyrebird的语音克隆引擎,效果特别出色。我们对质量感到震惊。听到自己的声音说的话,您知道这是自己从未说过的话,这会令人不安。 演讲绝对具有机器人般的品质,但随便听,很难分辨真假。
有兴趣的朋友可以试试,绝对会怀疑人生,千万不要用它做电信诈骗哈,很危险的.
------------------------------
如何利用他人的声音生成他的声音,进行科学诈骗并成功
这次所介绍的项目,比上次所说的功能似乎更为强大,因为在实际应用中,已经有公司付出了几千万美元的被骗费用,经过了实际检验,本篇就来聊聊它,如何构建和使用以达到以假乱真的效果。
项目地址
- https://github.com/CorentinJ/Real-Time-Voice-Cloning
内容详情
先来说一下最近有公司被以假乱真的声音诈骗几千万美元的事情吧。
事情经过大概是这样的:
2020 年初,香港的一位银行经理接到了一个他认得声音的人打来的电话——一位他以前与之交谈过的公司的董事。这位董事带来了好消息:他的公司即将进行收购,因此他需要银行批准一些高达 3500 万美元的转账。聘请了一位名叫 Martin Zelner 的律师来协调程序,银行经理可以在收件箱中看到董事和 Zelner 的电子邮件,确认需要多少钱才能转移到哪里。银行经理认为一切看起来都是合法的,开始进行转账。
他不知道的是,根据福布斯出土的一份法庭文件,他被欺骗作为精心设计的骗局的一部分,其中欺诈者使用“深声”技术来复制董事的声音。此事已寻求美国调查人员的帮助,以追踪进入 Centennial Bank 在美国的账户的 400,000 美元被盗资金。阿联酋正在调查这起影响国内实体的抢劫案,认为这是一个精心策划的计划,涉及至少 17 个人,将被盗资金发送到全球各地的银行账户。
文件中没有提供更多细节,没有提供受害者的姓名。负责调查的迪拜检察院在发布时尚未回应置评请求。也有人联系了美国律师马丁·泽尔纳 (Martin Zelner) 置评,但在发布时没有回应。
这只是已知的第二起欺诈者涉嫌使用语音克隆工具进行抢劫的案例,但似乎比第一起成功得多,欺诈者使用该技术冒充英国一家能源公司的首席执行官。据《华尔街日报》报道,该公司试图在 2019 年窃取 24 万美元。
阿联酋该案例显示了此类高科技诈骗的破坏性有多大,并引发了关于使用人工智能在网络犯罪中创建所谓的深度虚假图像和声音的预警。
“音频和视觉深度造假代表了 21 世纪技术的迷人发展,但它们也具有潜在的难以置信的危险,对数据、金钱和企业构成巨大威胁,”英国多塞特警察局前警官杰克摩尔说。现在是安全公司 ESET 的网络安全专家。 “我们目前正处于这种恶意行为的风口浪尖时,他们将专业知识和资源转移到那些最新技术,以操纵那些无辜地不知道深度伪造技术领域甚至它们存在的人。
大致新闻内容就是如此,如此成功的案例是不是让人心动啊?
没错,那么问题来了,那些欺诈者是如何生成那些以假乱真的音频呢?那就不得不提到前面列出的那个伟大的项目——Real Time Voice Cloning,翻译成中文名为真实声音克隆技术,是使用Python语法书写的。
通过研读该项目所说,只需要通过原声音训练,5秒钟就可以生成以假乱真的声音。
原文所说
SV2TTS 是一个三阶段深度学习框架,允许从几秒钟的音频中创建语音的数字表示,并使用它来调节经过训练以泛化到新语音的文本到语音模型。
即,只需要在训练好的模型里,输入文字,就能让声音发出来。
部署步骤(结合视频来看,效果更佳)
- 本机安装Python3版本
- 安装PyTorch (>=1.1.0)
- 安装ffmpeg
- 下载该项目最新源码
- 运行检测命令:python demo_cli.py,如果配置没问题,都通过的话,就可以进行下一步了
- 运行命令python demo_toolbox.py -d <datasets_root>或者python demo_toolbox.py
之后,就可以开始开心的玩耍了!伟大的诈骗之路向你打开了大门,哈哈哈哈。
No comments:
Post a Comment