阿里整大活,一张照片就能生成视频.
只要一张照片加上音频,就能让你说话唱歌,阿里做到了。
最近,阿里新上线了一款AI图片-音频-视频模型技术EMO,用户只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的AI视频。以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。
阿里研究团队表示,EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,其可以根据输入视频的长度生成任意持续时间的视频。
你可以想象一下,用单张静态AI美女头像就可以生成唱歌视频,让前段时间OpenAI sora生成的女主唱歌,或者说用一张张国荣的肖像就可以“复活”张国荣唱粤语歌。
值得一提的是,生成的视频中人物表情非常到位,口型、语速也都能完全匹配。
EMO框架介绍 图源:GitHub官网
结合最近Sora在全球爆火的消息,以及国内各大公司都积极布局AI生成视频的动作,阿里这次新推出EMO,是要紧跟市场形势。
比较来看,与Sora由文本生成视频不同的是,阿里的EMO是图片生成视频。但无论如何,视频生成模型赛道已经成为各大科技互联网公司的投入重点。在近日的财报电话会上,百度董事长李彦宏表示,多模态的融合,从文字到视频是非常重要的未来基础模型开发方向,百度已经进行投资并将持续进行投资。
对于阿里来说,在AI方面的布局,阿里从来没有掉队过。
去年4月,阿里已经推出了“通义千问”语言大模型,具备多轮对话、文案创作、逻辑推理等功能。在当时的阿里云峰会上,阿里云智能集团CEO张勇还高调宣布,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造。
不仅包括天猫、淘宝这样阿里集团最核心的产品,还涉及钉钉、高德地图、闲鱼、饿了么、优酷、盒马、淘票票等其他产品。
在主营电商业务,阿里已经推出面向C端用户的AI产品“淘宝问问”,类似于淘宝的导购,帮助用户更便捷地购物。阿里还将AI用在不同领域,比如探索医疗AI前沿技术、在招聘方面搭建“招聘+AI平台”等。
晚点LatePost报道称,阿里巴巴旗下淘天集团和国际数字商业集团都已经建立了完整的AI团队。去年11月末,淘天集团将原本约20个团队收拢为4个,分别负责阿里妈妈、C端消费者、B端商家以及行业特色应用,并且对内发布了淘天自己的大模型产品“图灵”。
阿里内部一直在强调AI的重要性,马云甚至在阿里内网发声,AI电商时代才刚刚开始,对谁都是机会,也是挑战。
如今,随着市场的不断变化,阿里需要转型变革。用阿里集团CEO吴泳铭一句话:“AI时代,阿里巴巴要成为一家服务全社会AI创新的、开放的科技平台企业。”
AI时代,阿里云承担重任
阿里要成为一家科技公司,关键在阿里云。尤其是在AI方面,阿里云是阿里巴巴在AI布局上的重中之重,是各项业务能够应用到AI的核心引擎。
阿里云在人工智能领域的布局提升了阿里巴巴整体的市场竞争力。通过训练和优化大模型,阿里云提供更加准确和高效的自然语言处理、图像识别、语音识别等服务,这些服务可以应用于阿里巴巴的各个业务场景中,如电商、物流、金融等,从而推动业务的创新和发展。
反之,各行业对于AI云服务的需求,也为阿里云AI业务的发展提供了广阔的市场规模。此前阿里云原董事长兼CEO张勇曾表示,AI云服务需求非常旺盛,增量机会刚刚开始释放。
2023年以来,阿里云发布了一系列生成式AI模型,这些模型都受到市场欢迎。6月,阿里云通义大模型推出了新产品“通义听悟”,可对音视频内容进行转写、检索、摘要和整理等,帮助用户在开会、上网课、看视频时更轻松浏览视频内容。
发布当月,通义听悟用户数已达36万,处理音频时长5万小时,处理文字超8亿。
7月,阿里云又推出绘画创作大模型“通义万相”,可辅助人类进行图片创作,未来可应用于艺术设计、电商、游戏和文创等应用场景。
同一个月,妙鸭相机向公众开放,这是一款基于AI技术的写真生成工具。当月内“妙鸭相机”就多次登顶IOS应用排行榜,排队人数峰值能达到4000-5000。甚至成为中国AIGC领域第一个爆火的C端产品,一上线就实现了付费使用。
可以预见,目前上线的AI图生视频模型EMO,或许又是一个火爆的AI产品。而阿里的这些AI技术的发展,离不开阿里云基础设施建设。
去年11月,阿里巴巴集团CEO吴泳铭,明确了阿里云的战略定位,即“AI驱动、公共云优先”,表示为各行各业提供稳定高效的AI基础设施,共建开放繁荣的AI生态。
然而就在当月,阿里云就迎来了新一轮组织架构调整,幅度很大,不仅在阿里集团层面成立了一个基础设施委员会,同时阿里云在产研线、商业线以及包括供应链&IDC等在内的其他8个部门也均产生变动。
继11月底进行组织结构调整后,阿里云又进一步调整了业务重心,精简为政企客户定制的行业解决方案项目制业务,并砍掉 IoT(物联网)业务线硬件集成业务并缩减相关人员。同时,阿里云还逐步扩大了公共云事业部和AI部门的招聘规模。这也意味着,阿里云重新进行资源整合,将重心转移至公共云事业部和AI部门。
当前阿里云面临的是瞬息万变的市场环境,必须要不断改变与革新,时刻迎接挑战。
-----------------------------------------------
https://github.com/HumanAIGC/EMO
https://humanaigc.github.io/emote-portrait-alive/
https://github.com/HumanAIGC/emote-portrait-alive
No comments:
Post a Comment