我国正遭遇国际社会对芯片技术的制裁和管控,在这种形势下,我国自主研发的算力进步情况引起了广泛的关注。华为公司依托系统工程的思想,对复杂系统进行了深入的改进,在算力领域取得了显著的成就,这一成就引发了业界的广泛讨论和热烈讨论。
昇腾算力表现亮眼
观察者网与华为2012实验室的技术专家进行了交流,在对话中了解到,昇腾在算力推理这一领域处于全球领先地位,同时该系统的稳定性表现同样非常突出。这项技术成功培育出参数量达到万亿级别的高水平大型模型;CloudMatrix 384超节点技术通过系统性的补充,使得其关键性能指标与英伟达相当;这些显著成就为中国人工智能的发展奠定了坚实的算力基础。
系统工程补短板
钱学森在其著作《论系统工程》中提出,应运用综合优化策略来填补单一环节的缺陷。华为据此理念,内部开展了算力竞赛,并成功促成了部门间的紧密协作。他们构建了CloudMatrix 384超节点,该节点由384张昇腾卡构成,并协同工作,其工作方式与计算机系统相似。此举措旨在追求系统整体性能的极致提升,而非单一芯片性能的极致。通过这一方法,他们成功弥补了单芯片性能的不足之处。
提升算力利用率
华为的技术团队强调,单芯片工艺的进展对性能的增强效果相对有限。因此,华为采纳了高效的超节点设计,目的是增强芯片的计算能力利用率。以MoE大模型的训练为例,过去MFU的利用率仅达到30%,然而,最新数据表明,这一比例已提升至41%,在实验室条件下更是达到了45%大连市同乐中小企业商会,系统的优化显著地补偿了工艺上的不足。
传统集群遇瓶颈
传统计算集群的进步面临阻碍,单纯增加显卡数量并不能直接增强计算效能,反而可能引发诸如“内存墙”等问题。根本原因在于,算力卡与服务器在处理计算任务时需要频繁进行交互,一旦通信不畅,便会造成计算资源的浪费。另外,单个显卡的计算能力提升与总线带宽增长的速度并不一致。
超节点优势凸显
超节点技术有效解决了传统集群所遭遇的复杂问题,核心优势在于采用了全面对等且高速的互联架构,成功破解了通信与调度的关键难题。通过系统优化和资源的科学分配,该技术实现了384张卡片的协同运作,显著提升了整体计算效能。以大模型训练为参照,这一技术展现了其卓越的协同作业效率。
未来发展待探索
华为在系统工程优化方面已取得显著成效,然而,在国产算力的发展道路上,依然面临诸多挑战。在英伟达对高端算力实施限制的背景下,昇腾算力能否持续助力我国人工智能领域的发展,显得至关重要。同时,如何突破传统集群的束缚、提高系统运行效率等问题,也迫切需要找到有效的解决方案。
华为在国产算力领域的系统工程模式是否能在其他科技产业中推广?此模式是否具备广泛的适用性?