我们提出专家链(Chain-of-Experts,CoE)架构,一种通过在单层内实现专家间串行通信的创新方法,从根本上改变稀疏神经网络的信息处理方式。MoE设计中存在专家间独立处理以及显存需求高的问题。与先前MoE独立处理每个token不同,CoE引入迭代机制使专家能够"沟通",在其他专家的输出之上处理token。 实验证明CoE在多个方面显著超越先前MoE模型。**性能显著提升,**CoE两次迭代在Math任务上将验证loss从1.20降至1.12;**扩展策略优势,**CoE中扩展两次迭代性能相当于将专家选择数量扩大3倍,并优于扩展模型层数;**资源效率优化,**相似表现下减少了17.6-42%的内存需求;专家组合自由度提升了823倍;专家使用效率增强,促进了专家间的直接通信和更好的专家分化。这些优势构成了一种罕见的"免费午餐"效应,为大规模语言模型的高效扩展开辟了新途径。
大型语言模型(LLMs)不断推动人工智能可能性的边界,但高效扩展这些模型仍然是一个重大挑战。专家混合(Mixture of Experts,MoE)模型作为一种有前景的方法出现,通过每个token仅激活部分参数来解决这一挑战,理论上实现更高效的扩展。然而,MoE模型存在以下局限性:
我们的研究引入了Chain-of-Experts (CoE),这是一种改变稀疏神经网络处理信息方式的新方法。
CoE的关键创新在于建立沟通性处理机制,超越了先前MoE模型中的独立标准处理。我们如何实现这一点?通过在单个层的迭代中将MoE输出反馈为多次迭代的输入。
在先前的MoE层中,不考虑共享专家,输出可以表示为:
$y = \sum_{i=1}^{N} g_i \cdot \text{E}_i(x)$
$g_{i} = \begin{cases} s_{i}, & s_{i} \in \text{TopK}({s_{j}|1 \leq j \leq N}, K), \\ 0, & \text{otherwise}, \end{cases}$