Summary

Abstract & Introduction & Background and Challenges

前面又是简单介绍MoE,基本都一样。

这个也是training方向的,说了三个challenges:

  1. dynamic load imbalance

    在intro里,叫Dynamic expert selection,就也比较明显,就是每次选的experts不一样。

  2. inefficient synchronous execution mode

    在intro里,叫Inefficient synchronous operations,就是expert有dependency,就需要别的worker的data,要等。

  3. congested all-to-all communication

    在intro里,叫Mismatch of model design and network topology,感觉他的意思是现在的system只管摆放experts的computation load,不管experts之间的communication。

从abstract这里感觉他还是主要是关于解决communication方面的问题。

Intro前面又讲了很久介绍,还附了个图:

CleanShot 2025-03-28 at 21.11.26

提出了一个 precise performance model,就在offline的时候根据MoE model and system configuration去预测latency。

三个方法,分别去解决上面的问题:Dynamic shadowing,A fine-grained smart scheduling strategy,a congestion-avoiding expert selection strategy。

contribution也是经典,一个a performance model,一个roofline-like model,加上上面三个方法,最合组合一起,整了一个system。六点贡献。

CleanShot 2025-03-30 at 15.12.46

又是一个新的transformer block的结构图。

CleanShot 2025-03-30 at 15.39.19

这篇论文又说可以选好几个experts,我目前还是感觉一个token只能用选一个expert,这个论文里说的可能是一个sequence里面会用不同的,有点迷惑。

再次具体的说了一下这三个challenges。

CleanShot 2025-03-30 at 18.07.29

Figure 4主要说的是第一个challenge,就是分配不均衡的这个问题。

第二个就是这个communication,一般我们喜欢尽量异步,但是all-to-all communication里面有一些dependency,所以很难异步。

第三个他虽然有说一遍,但我还是没太看懂,唯一理解是这个expert assignment确实有可以优化的地方。

Performance Modeling

Model-Guided Optimization Approaches

Thoughts