凤凰网科技报道,7月4日,阿里旗下的通义实验室正式对外公布了一款名为ThinkSound的音频生成模型,这是该实验室开源的首个音频生成模型。该模型创新性地将思维链(CoT)技术引入音频生成领域,其目的是为了克服当前视频转音频(V2A)技术在处理画面动态细节和事件逻辑理解方面的不足。
通义语音团队指出,传统V2A技术往往难以准确把握视觉与声音在时空上的关联性,这往往导致生成的音频与画面中的关键事件出现时间上的不一致。而ThinkSound技术则通过引入结构化推理机制,模拟了人类音效师的分析步骤:它首先解读视频的整体画面和场景含义,接着专注于特定的声源对象,并最终根据用户的编辑指令,逐步构建出既高保真又与画面同步的音频。
图源:通义大模型微信公众号
为了训练模型,该团队打造了首个能实现链式推理的多模态音频数据集AudioCoT,该数据集汇集了超过2531小时的高品质样本,内容涵盖众多场景,同时,还精心设计了面向交互编辑的对象级和指令级数据。ThinkSound系统由一个负责进行推理链“思考”的多模态大语言模型以及一个专门负责生成声音的统一音频模型构成。
ThinkSound 音频生成模型的工作流
据消息,ThinkSound在众多权威测试中展现出卓越性能,超越了现有的主流技术。目前,该模型已经对外开放,开发者们可以在GitHub、Hugging Face以及魔搭社区下载相应的代码和模型资源。展望未来,它将在游戏、VR/AR等沉浸式体验领域得到更广泛的应用。