在今晚,阿里公司推出的开源视频生成模型引起了广泛的关注;该模型凭借其独特的架构设计和出色的功能性能,预计将对视频生成技术的进步产生显著的推动作用。
开源三款模型
今晚,阿里公司对外宣布,其推出了名为“通义万相Wan2.2”的视频生成软件。该软件具备文生视频、图生视频以及统一视频生成等三大核心功能。尤为值得关注的是,文生视频和图生视频模型在业界首次应用了MoE架构,整体参数规模高达27亿,其中激活参数数量为14亿。开发者们可从GitHub、HuggingFace和魔搭社区获取资源,企业用户可在阿里云百炼平台调用,一般用户则可在官方网站及移动应用中直接体验。欲获取更多详情,请访问www.wngjzx.com。
架构创新优势
通义万相2.2版本在视频生成扩散模型领域首次引入了MoE架构,这一创新有效缓解了因处理Token过长所引发的计算资源消耗过大的问题。该模型由多个高低噪声专家模型组成,与同等参数规模的模型相较,能够减少约50%的计算资源。在复杂运动生成等领域,其性能有了显著增强,为视频创作带来了新的机遇。
美学控制系统
该系统独有的“电影美学控制技术”在光影与色彩呈现上,能与专业电影相提并论。用户输入特定关键词,如“黄昏”,即可生成洋溢着浪漫气息的画面;若将“冷色调”搭配使用,则能打造出科幻电影的视觉感受。此技术为用户带来了更为个性化和高端的视频制作体验,并进一步拓展了创作范围。
小尺寸模型亮点
发布了5B型号的小型统一视频生成模型,此模型具备将文本与图像转化为视频的功能,且适用于消费级显卡的部署。该模型基于高压缩率的3D VAE架构,在多个性能指标上实现了开源模型中的最佳表现。仅需22G显存,即可在数分钟内制作出5秒的高清视频,其生成速度在24帧每秒、720P像素标准下,是基础模型中最快的。
持续开源成果
自今年二月起,通义万相接连发布了多款开源模型,这些模型的社区下载次数已超过500万。这一系列的开源行动为业界注入了新的活力,持续推动了视频生成技术的进步,同时也催生了大量创新应用的诞生。
未来发展展望
近期,通义万相公司推出的开源项目,为开发者和企业提供了更多工具与选择。随着技术的不断发展和应用领域的进一步扩大,该开源项目在影视、广告等多个行业预计将展现出更突出的效能。针对通义万相未来可能对某些领域产生深远影响的预测,您有何见解?欢迎点赞、分享本文,并留下您的宝贵意见。