月之暗面推全新开源代码大模型Kimi-Dev-72B,成绩超DeepSeek-R1?

月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1_月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1_

AI软件工程领域再迎佳音,Kimi - Dev - 72B在SWE - bench Verified基准测试中成绩斐然,达到了60.4%的高分。这一成果不仅打破了开源模型的最优性能记录,同时其技术细节与开发理念亦引发了业界的极大兴趣和关注。

月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1_月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1_

卓越测试成绩

Kimi-Dev-72B在SWE-bench Verified测试中成绩斐然,得分高达60.4%,遥遥领先于其他参赛者。这一成绩充分体现了其在AI软件工程领域的强大竞争力。同时,该系统具备独立修复Docker实际存储库的能力。只有当测试套件全部通过,才能获得奖励。这种严格的测试流程确保了结果的极高可靠性。

_月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1_月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1

月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1_月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1_

技术设计揭秘

月之暗面对于Kimi-Dev-72B的设计理念进行了深入的剖析,同时详细公开了其技术层面的具体信息。值得关注的是,BugFixer与TestWriter的结合形成了一个鲜明的特色。这两者相互协作,共同为代码的修正以及单元测试环节提供了高效的方法和方案。此外,中期训练的实施、强化学习的运用以及测试阶段的自对弈技术,共同推动了其性能水平的显著提高。

工作流程一览

BugFixer和TestWriter的操作流程有诸多相似点。首先,它们都能精确地找到需要编辑的文件。随后,它们对代码进行了适当的调整。无论是处理容易出错的代码实现,还是添加unittest函数,都表现得相当得体。因此,Kimi-Dev-72B选用了简化的架构,这一架构涵盖了文件本地化与代码编辑这两个核心环节。

中期训练加持

为了增强Kimi-Dev-72B在执行Bug修复和测试编写任务时的初始知识储备,月之暗面项目采用了约1500亿条的高质量真实数据,对其进行了中期的训练过程。该训练项目基于Qwen 2.5-72B基础模型,同时,我们从GitHub平台收集了数百万个问题以及Pull Request(拉取请求)的提交内容,将这些资料整合成训练数据集。通过精心设计的配方,该模型能够模仿人类开发者解决技术问题的方法。

高效优化训练

月球的背面应用了Kimi k1.5中所述的策略优化方法,该方法在推理任务中表现出色。Kimi - Dev - 72B版本得益于其高度并行、强大且高效的内部智能体基础设施,在多个问题解决任务的训练中取得了显著成效。在测试环节,其自我博弈机制进一步增强了错误修复和测试编写的能力。

未来持续发展

月球的背面正努力寻找扩大Kimi-Dev-72B功能的新方法,并专注于研究更高级别的软件工程挑战。该公司保证将不断改进这一模型,进行严格的安全测试,并将性能更优的版本提供给整个社区。

Kimi-Dev-72B在本活动中的表现尤为出色,充分展现了人工智能在软件工程领域的广阔发展潜力。针对此现象大连市同乐中小企业商会,您能否预测该技术将在哪些具体的应用领域中扮演关键角色?我们热切期待您的观点和交流,同时也衷心邀请您点赞并分享这篇文章。

月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1_月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1_