今年1月,中国人工智能公司深度求索(DeepSeek)发布了令人瞩目的DeepSeek-R1模型,采取创新的MoE架构和高效的训练方法,使得其在保持高性能的同时实现了较低的算力需求。众多主流大模型企业也纷纷加码MoE架构创新。
近日,科大讯飞携手华为在国产算力领域取得重大进展,双方联合团队率先突破国产算力集群上MoE模型的大规模跨节点专家并行集群推理。这是继DeepSeek公布其MoE模型训练推理方案后,业界首个基于国产算力的全新解决方案。
想要了解科大讯飞与华为的这次突破的意义,需要先了解一下什么是MoE模型。
MoE模型全称Mixture of Experts,即混合专家模型,是一种先进的神经网络架构,旨在通过整合多个模型或“专家”的预测来提升整体模型性能。
MoE模型的核心工作设计思路是“术业有专攻”,通过将输入数据分配给不同的专家子模型,然后将所有子模型的输出进行合并,以生成最终结果。举个例子,MoE模型类似一个酒店的后厨,后厨里面有徽菜、川菜、粤菜等不同菜系的大厨,这些大厨就是专家。客人点完菜,后厨接到任务后,就由对应菜系的大厨来做。
DeepSeek通过MoE架构的创新让激活参数比大幅下降,使得同等效果的大模型所需的算力明显下降。“不过,MoE架构虽然能有效降低算力消耗,但在分布式训练过程中,仍然面临着跨设备通信开销巨大的挑战。”科大讯飞有关负责人表示。
DeepSeek成为“国产大模型之光”,但其背后所用的仍然是英伟达提供的算力。以DeepSeek为代表的国产大模型的算法突破,能否与国产算力支撑适配,显然已经成为一项事关我国大模型和人工智能长远发展的急务。
近日,科大讯飞与华为的联合团队率先突破国产算力集群上MoE模型的大规模跨节点专家并行集群推理。联合团队通过软硬件的深度协同创新,在多个关键技术层面深挖硬件潜力,完成昇腾集群上的验证和部署。
通过算子融合、混合并行策略和通信计算并行优化等一系列创新,科大讯飞在国产算力上实现了显著性能提升:单卡静态内存占用缩减至双机部署的1/4,效率提升75%,专家计算密度增加4倍,推理吞吐提升3.2倍,端到端时延降低50%。
基于此次科大讯飞携手华为所做的首个基于国产算力的MoE模型训推方案,科大讯飞称,这一突破性的解决方案也将应用于讯飞星火深度推理模型的训练加速,预期训练时推理效率将提升200%。同时,基于该方案的推理引擎也实现了国产算力上DeepSeek-V3和R1的高效推理。
算力供应是AI技术的底层支撑,自主可控方能“防患于未然”。从DeepSeek点燃开源之火,到字节、阿里争相技术共享,再到科大讯飞实现国产算力突破,国内MoE赛道已形成“效率迭代”与“自主可控”的双重叙事。
文字:合肥日报-合新闻记者 张玉莲通讯员 许昊杰 许可亮