今天我们就来看一款效果非常不错的 AI 语音克隆工具 Speaking AI,它可以将文本转为如真人说话一般自然的语音,还支持用户免费克隆自己的声音。
一、Speaking AI 介绍
官方网站: https://speaking.ai/
Speaking AI 是一个初创公司,创始人为 Harry Zheng,其团队成员也都是中国人。公司创立的初衷是坚信对话式生成语音代表着人类与人工智能之间的未来接口,他们希望让语音克隆听起来更加自然,为人与人工智能之间的互动方式带来根本性改变。
Speaking AI 目前有两项主要功能:文本转语音和语音克隆,其中语音克隆功能尤其出色,能做到接近真人说话的效果。
Speaking AI 目前支持中文和英文的文本转语音,另有 5 款名人语音模板供用户选择。此功能目前是免费的,使用人数较多时需要排队。Speaking AI 支持用户克隆自己和他人的声音,你可以选择在线录制 10 秒的音频,或者上传本地音频文件,然后进行实时转换,操作起来非常方便。录制时说话的情绪和语调会影响最终的合成效果,Speaking AI 的模型也会根据文本内容自主选择合适的情感基调。
注意:上传他人的声音时需要获得对方的同意,并且不能将合成的语音用于任何非法、欺诈和有害目的。
据创始人介绍,目前 Speaking AI 还处于 V1 模型,算是一个试玩 Demo,性能比较有限,这种情况会在未来几周内得到改善。官方已经在研发 V2 模型,它将支持更多不同的语言,语音克隆速度会更快,质量也会更高。
除了今天推荐的 Speaking AI,目前市面还有很多成熟的 AI 语音生成应用和开源工具。
比如一直比较受关注的 Elevenlabs,几分钟就能克隆用户个人声音并合成新的语音,支持将文本转换为中文等 28 种语言,并能以不同的情绪演绎,目前上线了视频自动翻译配音功能。Elevenlabs 在翻译、电影游戏 / 配音、有声书制作、聊天机器人对话上有广泛应用,它的文本转语音功能可以免费使用,进入官网后注册账号就能体验。
官方网站: https://elevenlabs.io/
国内的网易有道技术团队则在 11 月份开源了自研的语音合成(TTS)引擎「易魔声」,目前支持中英文双语,包含 2000 多种不同的音色。易魔声也支持情感合成功能,可以合成如快乐、兴奋、悲伤、愤怒等不同感觉的语音。其 Github 主页中有官方提供的 Web 界面及批量生成结果的脚本接口,安装后就可以免费使用。
Github 主页: https://github.com/netease-youdao/EmotiVoice
我最近还在网上看到一个新的 AI 音乐合成工具 Musicfy AI,它可以将人声哼唱转化为不同类型的乐器伴奏,非常有意思。这可能会改变传统的编曲工作流,人们可以轻松地用声音进行音乐创作,对音乐感兴趣的小伙伴可以尝试一下。
官方直达: https://musicfy.lol/
语音克隆
可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。
开源地址:https://github.com/jianchang512/clone-voice
No comments:
Post a Comment