7月2日,《每日经济新闻》记者得到消息,百度的商业研发部门推出了他们自主研发的视频生成模型“MuseSteamer”以及相应的创作工具“绘想”,此举标志着该公司正式踏入人工智能视频制作这一新兴领域。
2024年,Sora的爆红掀起了生成式视频大模型的热潮。然而,在一场内部讲话中,李彦宏指出,此类视频生成模型的研发周期过长,可能需要10年甚至20年才能实现业务收益。尽管这种模式备受关注,但百度依然选择不涉足其中。
7月2日,一位与百度关系密切的人士向《每日经济新闻》记者透露,李彦宏在评价Sora时,话并未说完。他指出,考虑到多模态的需求,可以打造一个针对特定视频生成领域的场景。此外,百度近期推出的罗永浩数字人,同样属于特定场景下的视频生成应用。在商业领域,我们已拥有擎舵这一平台;而针对B端商业客户,为其制作AIGC(人工智能生成内容)产品宣传视频,则属于一个特定的应用场景,并且这一需求是存在的。
关键优势在于极致遵循力
目前,各大技术厂商正致力于攻克AI视频生成在画质、画面稳定性以及时长等方面的技术难题。
百度商业体系商业研发总经理刘林指出,在数字内容创作的领域中,视频的时长和画质一旦实现突破,往往预示着创作自由度的显著提升。MuseSteamer这款产品能够支持在电影级审美标准下生成长达10秒的视频,并且提供1080P的高清晰度,从而为视频创作者带来了更为广阔的表现空间。
刘林指出,在传统的AIGC视频制作流程中,通常是先制作视频,随后再为视频配上声音以及添加音效。这种分割式的创作方式不仅耗费了大量的时间,而且还可能损害作品的整体艺术表现。MuseSteamer则采用了创新的方法,能够实现音效与人物对白的一体化生成视频。
此外,MuseSteamer在视频时长上提供了两种选择,分别是5秒和10秒,且画质可以达到1080p的高清标准。同时,百度也发布了MuseSteamer模型的多个版本,包括Turbo、Lite、Pro等,每个版本还配备了相应的有声版本,旨在满足不同用户的创作需求以及成本考虑。
刘林指出,MuseSteamer的核心优势体现在其对创作指令的深刻理解和精准执行,这便是所谓的极致遵循力,它使得创作者能够实现“心之所想,即手之所达”的表达自由。与此同时,镜头运用技巧也是其独特的竞争力之一。百度期望通过这一模型,降低专业创作的门槛,让更多的人享受到“镜头平等”的权利。
据悉,MuseSteamer模型的技术根基涵盖了三大核心要素:首先,在数据准备环节,采用“筛选、净化、配比”的方法对超过十亿条异构数据进行加工处理;其次,依托三级标签体系及Active Learning(主动学习)机制,确保训练数据的审美价值与结构品质。
在模型训练阶段,我们运用了多目标反馈的强化学习策略来优化训练路径,旨在确保视频动作的幅度适中,并维持主体内容的稳定性与一致性。此外,MuseSteamer系统还融入了美学条件控制调优机制,借助隐式批判学习以及严格的电影标准筛选,使模型具备识别和创造美的能力。
MuseSteamer如何面对劲敌
相较于OpenAI、字节跳动、Pika等在文生视频领域先行一步的企业,百度此次推出的MuseSteamer无疑属于后来者。无论是海外的Pika、Runway,抑或是国内的快手旗下的可灵AI,以及字节跳动旗下剪映团队孵化的AI创作平台即梦AI,它们自2024年起便频繁推出各种模型、功能与平台,并且已经经历了多轮更新迭代。
今年五月,快手旗下的可灵AI正式发布了全新的2.1系列模型。在高分辨率模式(1080p)下,该模型仅需不到一分钟即可生成5秒的视频。根据快手官方网站的信息,自去年三月推出以来,仅经过十个月的发展,可灵AI的年化收入运行率(Annualized Revenue Run Rate)已经成功突破了一亿美元的大关。此外,今年四月和五月,其月度付费金额也都双双超过了1亿元人民币。
百度作为国内率先投身大模型领域的科技企业之一,自2023年开始,陆续推出了文心一言及多个版本的文心大模型。与此同时,百度的搜索、地图、文档和企业服务等业务线已成功应用大模型技术。
在视频生成这一人工智能生成内容领域的下一个热点,百度在此之前并未有显著的动作公开,只是于2024年对外宣布了对清华大学系背景的视频大模型企业生数科技的领投。另外,到了2025年3月,百度推出了文心大模型4.5版及其Turbo版本,这两个版本成功实现了文本、图像以及视频的混合训练功能。
2024年,Sora的爆红点燃了国内生成式视频大模型的狂热,李彦宏在一次内部发言中指出,Sora这类视频生成模型的研发周期过长,可能需要十年甚至二十年才能看到业务上的回报,尽管其备受瞩目,但百度不会跟进这一领域。
7月2日,有知情人士向《每日经济新闻》记者透露:“之前所提及的,我们不会开发类似Sora这样的模型,这并非意味着我们完全不涉足通用视频生成模型的训练。然而,在特定场景和特定目的下,我们确实需要具备视频生成能力。换句话说,根据对市场需求的评估,外界目前尚未具备这种能力,因此我们计划自行研发和生产这种技术。”
上述人士透露,李彦宏对Sora的点评并非仅此一句,他实际上还提到,考虑到多模态的需求,可以打造一个较为专一的短视频创作环境。例如,百度近期推出的罗永浩数字人也是针对特定场景的视频生成应用。原本在商业领域,已有擎舵这一平台存在,那么为B端商业客户制作AIGC产品宣传视频,这同样属于特定场景,并且存在着用户需求。
记者观察到,这款名为MuseSteamer的产品是由百度商业研发团队负责研发并推出的,这或许暗示了该产品可能主要用于广告创意的生成以及内容的投放领域。
此外,在7月2日,百度搜索平台宣布实施自十年以来的最大规模改版,这一变革涉及搜索框、搜索结果页面以及整个搜索生态系统的全面升级。具体来看,搜索框已经升级为“智能框”,能够支持超过千字的文本输入,同时拍照、语音、视频等功能也得到了全面强化,并且可以直接调用AI写作、AI作图等实用工具。此外,百度搜索还宣布将接入视频生成模型MuseSteamer。
在将来,MuseSteamer能否融入百度的搜索、营销以及智能助手等核心业务领域,将直接影响到其是否能够从单一工具转变为综合性平台,并从模型功能过渡到商业化的动力工具。
每日经济新闻