阿里通义实验室开源首个音频生成模型ThinkSound?有何独特之处

凤凰网科技报道,7月4日,阿里旗下的通义实验室正式对外公布了一款名为ThinkSound的音频生成模型,这是该实验室开源的首个音频生成模型。该模型创新性地将思维链(CoT)技术引入音频生成领域,其目的是为了克服当前视频转音频(V2A)技术在处理画面动态细节和事件逻辑理解方面的不足。

通义语音团队指出,传统V2A技术往往难以准确把握视觉与声音在时空上的关联性,这往往导致生成的音频与画面中的关键事件出现时间上的不一致。而ThinkSound技术则通过引入结构化推理机制,模拟了人类音效师的分析步骤:它首先解读视频的整体画面和场景含义,接着专注于特定的声源对象,并最终根据用户的编辑指令,逐步构建出既高保真又与画面同步的音频。

图源:通义大模型微信公众号

_阿里巴巴音频算法工程师_阿里里音频

为了训练模型,该团队打造了首个能实现链式推理的多模态音频数据集AudioCoT,该数据集汇集了超过2531小时的高品质样本,内容涵盖众多场景,同时,还精心设计了面向交互编辑的对象级和指令级数据。ThinkSound系统由一个负责进行推理链“思考”的多模态大语言模型以及一个专门负责生成声音的统一音频模型构成。

ThinkSound 音频生成模型的工作流

据消息,ThinkSound在众多权威测试中展现出卓越性能,超越了现有的主流技术。目前,该模型已经对外开放,开发者们可以在GitHub、Hugging Face以及魔搭社区下载相应的代码和模型资源。展望未来,它将在游戏、VR/AR等沉浸式体验领域得到更广泛的应用。

免责声明:本站发布的所有文章图片内容,由AI一键生成,根据关键词和其他参数进行文章自动采集、加工、发布。不对文章内容的真实性、合法性、时效性负责。

版权所有 copyright 2019 长子县融媒体中心 www.zzc-media.com XML地图
《互联网新闻信息服务许可证》 证号:14120200024 《信息网络传播视听节目许可证》 证号:104420004 备案号:晋ICP备19004532号-1
友情链接 互助县树人高级中学 永川行政服务中心 济南市市中区人民政府舜耕街道办事处 邢台市应急管理宣传教育培训中心

关于站点

‌长子县融媒体中心‌是长子县的一个重要媒体机构,主要负责新闻宣传和媒体融合工作。由原‌长子县广播电视台和‌长子县新闻中心合并组建,成立于2018年12月,标志着长子县新闻宣传工作进入了融合发展的新时代‌。长子县融媒体中心位于山西省长子县会堂四楼,是长子县新闻发布和宣传活动的主要枢纽‌。

搜索Search

搜索一下,你就知道。

温馨提示

百亿补贴福利攻略.jpg