经过一天的行业广泛讨论,华为人工智能大模型研究团队现已正式对盘古开源模型涉嫌模仿他人物件的风波作出回应。
7月5日午后,华为公司下属的AI大型语言模型盘古Pro MoE的研发团队“诺亚方舟实验室”对外公布了一则公告,指出盘古Pro MoE的开源版本是在昇腾硬件平台上进行开发与训练的大型基础模型,并非通过其他厂商的模型进行增量训练所得。
我们留意到近期在开源社区和网络平台上,有关盘古大模型开源代码的诸多讨论。盘古Pro MoE开源模型是在昇腾硬件平台上进行开发与训练的大型模型,它并非通过其他厂商的模型进行增量训练所得。该模型在架构设计和技术特性方面实现了关键性的创新。作为全球首个专为昇腾硬件平台设计的同规格混合专家模型,它创新性地提出了分组混合专家模型(MoGE)架构。这一架构有效地解决了大规模分布式训练中的负载均衡问题,显著提高了训练效率。关于其他技术特性的创新之处,敬请参阅昇腾生态竞争力系列技术报告中详细披露的信息。华为盘古团队如是说明。
盘古团队强调,"盘古Pro MoE开源模型中部分基础组件的代码编制借鉴了业界的开源惯例,并使用了其他开源大型模型的部分开源代码。我们严格遵守开源许可证的相关规定,在开源代码文件中明确标示了开源代码的版权信息。这一做法不仅是开源社区的普遍行为,而且也体现了业界推崇的开源合作理念。"
盘古Pro MoE的技术研发团队明确指出,他们一直秉持着开放与创新的理念,对第三方的知识产权表示尊重,并且积极倡导包容、公平、开放、团结以及可持续发展的开源精神。团队对全球的开发者和合作伙伴对盘古大模型的关注与支持表示衷心的感谢,同时也非常重视开源社区提出的建设性反馈。期望借助盘古大模型的开源,携手志趣相投的同行,共同深入研究并持续提升模型效能,从而加快技术创新步伐和产业应用的实现。
据了解,华为公司在2012年创建了名为诺亚方舟的实验室,这是一家专注于人工智能领域的研究机构。实验室汇聚了来自全球的科研精英,致力于开展基础研究。运用迁移学习等先进技术,该实验室为盘古大模型等关键项目提供了核心算法的支撑。现阶段,诺亚方舟实验室主要承担着华为盘古大语言模型(LLM)系列产品的研发任务。
在2021年,华为云推出了盘古系列的一系列预训练大型模型,这些模型涵盖了自然语言处理(NLP)领域、计算机视觉(CV)领域以及科学计算领域。
今年6月21日,华为云推出了盘古大模型5.0版本,该版本涵盖了多种参数规格的模型。其中,Pangu E系列模型参数量达到十亿级,能够支持手机、PC等终端设备的智能应用;Pangu P系列模型参数量高达百亿级,特别适用于低延迟、低成本的计算场景;此外,还有千亿级参数的Pangu U系列和万亿级参数的Pangu S系列超级大模型,这些模型均有助于企业更高效地在各个场景中应用人工智能技术。
6月30日,华为公司对外公布,将开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型以及昇腾模型推理技术,并同步发布了相关的研究论文。华为强调,这一举措是公司落实昇腾生态战略的重要步骤,旨在促进大模型技术的研究和创新,同时加快人工智能在各行各业中的应用和价值的实现。
然而,华为推出的盘古Pro MoE模型遭到了外界对其涉嫌模仿阿里云的通义千问Qwen-2.5 14B模型的指控。
7月4日,GitHub上的一项研究揭示,华为的盘古Pro MoE模型(参数总量达720亿)运用了LLM-Fingerprint技术,其注意力参数分布与阿里通义千问Qwen-2.5 14B模型呈现出极高的相似度,平均相关系数高达0.927,几乎与完全一致的1.0相媲美,这一数值明显超出了模型间应有的正常差异,暗示了“非独立开发”的嫌疑。
作者声称自己是来自哥斯达黎加大学的韩国籍学生。他提到,在盘古开源代码的文件中,有标注“版权所有2024,Qwen团队,阿里巴巴集团”,这引起了对其在涉嫌复制阿里代码时未移除版权声明的质疑。
截至发稿前,上述GitHub库已经删除。
华为诺亚方舟实验室在最新发布的声明中明确表示,针对抄袭的指控予以否认,强调这是对开源组件的合理引用,并且已经按照规定进行了合规性标注,完全符合开源协议的相关规定。
该事件在近日受到了广泛的关注,各大社交平台纷纷展开了热烈的讨论。在知乎上,众多帖文指出,该GitHub开发者将大语言模型中每个transformer层的QKVO参数的标准差进行整合,构建成了一个特征向量。他将这一模型命名为“指纹”,并据此计算不同大语言模型之间的距离,以此来衡量它们的相似度。这种逻辑手段无法对模型的相似性进行评估,同时,仅凭参数标准差来做出判断,本身也不是一种科学的做法。
发稿截止时,阿里Qwen尚未就此事作出任何公开表态。然而,据我所知,众多知名企业的AI研究小组正密切留意此事的动态。
抄袭事件再次揭示了AI大型模型在开源方面的定义不够清晰、协议规则和法律界限存在一定的不明确性,以及开源模型和代码协议的混乱状况。
通常来说,开源并不意味着缺乏版权保护,任何外部机构在使用时都必须遵守相应的开源许可证规定。若企业打算将开源代码用于商业目的,则必须获得开源项目的授权或许需支付相应费用。此外,从法律角度讲,大模型的所有者能够通过申请专利、注册商标或行使版权等手段来维护自身在大模型知识产权方面的权益。
开源领域的众多资深专家曾向笔者透露,在使用开源项目时,需特别注意以下两点:首先,必须明确指出原作者的身份,所使用的具体项目,并严格遵守该项目的开源协议和作者声明,不得擅自修改或删除相关内容;其次,要关注项目的商业化边界,部分项目允许用于商业用途,而另一些则明令禁止商业化或二次开发,开发者需重新进行沟通与评估。
在此阶段,有关零一万物开源大模型Yi-34B采用Meta LIama开源模型架构的疑虑浮现,同时,斯坦福大学的Llama3-V项目涉嫌模仿面壁智能研发的MiniCPM-Llama3-V 2.5等案例,这些事件都引起了开发者群体的广泛关注。
William Wong,作为未知资本的常务董事,曾指出,众多初创企业仅将GPT技术接入后台,前端仅进行简单的UI设计便上架苹果商店,并宣称自己投身于生成式AI创业。在他看来,这类生成式AI项目缺乏技术门槛和商业逻辑,实则只是借机“炒作”。
随着DeepSeek-R1/V3这一开源AI模型在全球范围内广受欢迎,自研的底层大模型技术却因成本高昂而备受关注,众多AI模型与应用背后都可见DeepSeek的踪迹。因此,未来如何明确开源AI模型的边界,确保开源技术的健康发展与有序推进,已成为业界亟需解决的关键问题。
华为云透露,在过去的一年里,盘古大模型已成功应用于超过30个行业领域,涉及400多个具体场景。它在政务管理、金融服务、制造业、医药研发、煤矿开采、钢铁生产、铁路运输、自动驾驶技术、工业产品设计、建筑设计以及气象预测等多个方面展现出了显著的价值。(信息源自钛媒体App,作者为林志佳,编辑为盖虹达。)