Reading Notes for FasterMoE
Summary Abstract & Introduction & Background and Challenges 前面又是简单介绍MoE,基本都一样。 这个也是training方向的,说了三个challenges: dynamic load imbalance 在intro里,叫Dynamic expert selection,就也比较明显,就是每次选的experts不一样。 inefficient synchronous execution mode 在intro里,叫Inefficient synchronous operations,就是expert有dependency,就需要别的worker的data,要等。 congested all-to-all communication 在intro里,叫Mismatch of model design and network topology,感觉他的意思是现在的system只管摆放experts的computation...