引言

我们提出专家链(Chain-of-Experts，CoE)架构，一种通过在单层内实现专家间串行通信的创新方法，从根本上改变稀疏神经网络的信息处理方式。MoE设计中存在专家间独立处理以及显存需求高的问题。与先前MoE独立处理每个token不同，CoE引入迭代机制使专家能够"沟通"，在其他专家的输出之上处理token。实验证明CoE在多个方面显著超越先前MoE模型。**性能显著提升，**CoE两次迭代在Math任务上将验证loss从1.20降至1.12；**扩展策略优势，**CoE中扩展两次迭代性能相当于将专家选择数量扩大3倍，并优于扩展模型层数；**资源效率优化，**相似表现下减少了17.6-42%的内存需求；专家组合自由度提升了823倍；专家使用效率增强，促进了专家间的直接通信和更好的专家分化。这些优势构成了一种罕见的"免费午餐"效应，为大规模语言模型的高效扩展开辟了新途径。

代码：https://github.com/ZihanWang314/coe

中文报告：Chain-of-Experts: 释放MoE专家的沟通潜能

英文报告：Chain-of-Experts: Unlocking the Communication Power of MoEs

Chain-of-Experts：释放MoE专家的沟通潜能

大型语言模型（LLMs）不断推动人工智能可能性的边界，但高效扩展这些模型仍然是一个重大挑战。专家混合（Mixture of Experts，MoE）模型作为一种有前景的方法出现，通过每个token仅激活部分参数来解决这一挑战，理论上实现更高效的扩展。然而，MoE模型存在以下局限性：

独立标记处理：MoE模型通常并行独立处理token，专家之间没有沟通。
内存效率低下：由于具有稀疏激活模式，MoE整体参数数量较大，需要大量内存资源。

Chain-of-Experts (CoE)介绍

我们的研究引入了Chain-of-Experts (CoE)，这是一种改变稀疏神经网络处理信息方式的新方法。

Chain-of-Experts的形式化表述

CoE的关键创新在于建立沟通性处理机制，超越了先前MoE模型中的独立标准处理。我们如何实现这一点？通过在单个层的迭代中将MoE输出反馈为多次迭代的输入。

先前MoE的输出表示

在先前的MoE层中，不考虑共享专家，输出可以表示为：

$y = \sum_{i=1}^{N} g_i \cdot \text{E}_i(x)$

$g_{i} = \begin{cases} s_{i}, & s_{i} \in \text{TopK}({s_{j}|1 \leq j \leq N}, K), \\ 0, & \text{otherwise}, \end{cases}$