Coding Diary(2025-6-19)
这一周可以说是过的飞快,真是学到了点东西,模型的训练也开始了。
系统方面的话,SGLang 还是基本没什么进展,但是对我们现在用的这个 music transformer 的架构是大致了解了。我们 mentor 现在是让我们从算子的结构画一个模型图出来,目前还没倒出空来干。
模型方面进展挺多的,处理了我们的新的、巨大的 dataset:Aria。现在用的是最简单的分离 melody 和 accompaniment 的方法,之后可能会试一试别的,比如 skyline。在最简单的分离方法得到的数据集上,我们已经训练了两轮模型了,一个没有 interleave_pos 这个参数,另外一个有。这个参数差不多意思就是序列交错,就是一个 acc 和 一个 mel 是交错的,有这个参数就是相当于告诉了模型这个数据训练的时候是交错的。
之所以这个系统方向进展比较缓慢,就在于我们都得首先熟悉模型,要不然系统也做不了。其次就是训练的时候遇到了一些问题,调了很久训练参数。再就是有一些工具的安装,比如说这个 rclone。
因为你模型训练好之后,就算这是个小模型,参数也是很大的,你想别的地方地方用你就得传到什么地方,这个 rclone 就是干这个的。我用 scp 可能 1 M/s 都没有,他这个直接 120 M/s。
再就是 merge 代码费了点时间。
得抓紧搞模型图了。
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.
 Comments
GiscusUtterances