avatar
Articles
73
Tags
17
Categories
8
Stanley Zheng
Home
Archives
Tags
Categories
LogoStanley's Blog
Search
Stanley Zheng
Home
Archives
Tags
Categories

Stanley's Blog

StreamMUSE
Created2025-07-14|Research Blogs
Fake Offline def fake_offline(): model = load_from_checkpoint(model_path) # Convert midi file to tensor # midi file -> [1, num_logical_ticks, max_polyphony*2] x_mel, x_acc = conter_midi_to_tensor(midi_path) # fake inference round for i in range(n_round): # get right prompts prompt_length_i = prompt_length + i*gen_interval_ticks x_mel_pre = get_proper_mel_prompt_length(prompt_length_i) x_acc_pre = get_proper_acc_prompt_length(prompt_length_i) x =...
标准卷积过程
Created2025-07-12|Research Blogs
在看 MLSys 相关的东西的时候,经常能看到准对卷积操作做的优化,但是我总是忘卷积操作具体是怎么做的,在这里记一下。 标准卷积计算过程 输入图片的维度: 一张彩色图片通常有三个维度:高度 (H) x 宽度 (W) x 输入通道数 (C_in)。对于 RGB 图片,C_in 通常是 3。 单个卷积核的维度: 一个卷积核(或称为滤波器)的完整形状是 核高 (K_H) x 核宽 (K_W) x 输入通道数 (C_in)。 例如,如果输入图片有 3 个通道(RGB),并且你使用 3×3 的卷积核,那么一个卷积核的实际形状是 3×3×3。它包含了对应每个输入通道的 3×3 切片。 卷积操作的内部过程: 当一个卷积核在输入图片的某个局部区域滑动时,它会进行以下操作: 逐通道相乘: 卷积核的每个切片会与输入图片对应通道的局部区域进行逐元素的乘法。 求和: 将所有通道上(例如 RGB...
Coding Diary(2025-7-8)
Created2025-07-08|Coding Blogs
又是好久没写了,训练模型训的确实是非常头痛啊,在这里做一些版本描述,虽然理论上 yaml 里面都是有描述,但是毕竟如果你要一个一个点开看太麻烦了。 1.0.18,1.1.5,1.3.9 这几个都是为了 catch loss jump 训练的。
rsync 命令总结
Created2025-06-26|Tech Blogs
rsync (remote sync) 是一个用于在本地或远程系统之间高效地同步文件和目录的工具。它的核心优势是使用“增量算法”,只传输源和目标之间有差异的部分,从而大大减少数据传输量。 1. 基本语法 rsync [选项] <源路径> <目标路径> 源路径 (Source): 您要从中复制文件的地方。 目标路径 (Destination): 您要将文件复制到的地方。 源和目标都可以是本地路径,或者是 user@host:path 格式的远程路径。 一个非常重要的细节:源目录末尾的斜杠 / rsync ... source/ destination: 表示将 source 目录里面的内容复制到 destination 目录中。 rsync ... source destination: 表示将 source 目录本身(连同文件夹一起)复制到 destination 目录中,最终路径会是 destination/source/。 通常,您想要的是第一种行为。 2. 常用选项 (Options) 这些选项可以组合使用,例如 -avh。 -a,...
Coding Diary(2025-6-26)
Created2025-06-26|Coding Blogs
又是过的飞快的一周,还是有完成一些东西,而且确实学到了一些东西,把一些想起来的遇到问题记一下。 FileNotFoundError: [Errno 2] No such file or directory: '/tmp/tmpt3exafey' 这个错误遇到过两次,第一次没在意,觉得可能是什么莫名其妙的故障,当时也查了一下 tmp 文件还有多少空间。 第二次再遇到的时候幡然醒悟,感觉应该是因为服务器会定期清除 tmp 文件夹里的文件,所以大家如果训练模型可能很久的话记得指定 TMPDIR 环境变量。
Coding Diary(2025-6-12)
Created2025-06-12|Coding Blogs
Issue 1: pip install/module not found Basically, I am trying to set up the music transformer model. When we run pip install -r requirements.txt We encounter the error But we just ignore. Then, when we run this command python extract_mid.py We encountered this error And if you try to solve it with pip install mido, you may not solve it. This is because the pip you are using is not the pip in your virtual environment. Actually, if you use venv, you don’t have pip, instead, you have pip3. So,...
Coding Diary(2025-6-19)
Created2025-06-19|Coding Blogs
这一周可以说是过的飞快,真是学到了点东西,模型的训练也开始了。 系统方面的话,SGLang 还是基本没什么进展,但是对我们现在用的这个 music transformer 的架构是大致了解了。我们 mentor 现在是让我们从算子的结构画一个模型图出来,目前还没倒出空来干。 模型方面进展挺多的,处理了我们的新的、巨大的 dataset:Aria。现在用的是最简单的分离 melody 和 accompaniment 的方法,之后可能会试一试别的,比如 skyline。在最简单的分离方法得到的数据集上,我们已经训练了两轮模型了,一个没有 interleave_pos 这个参数,另外一个有。这个参数差不多意思就是序列交错,就是一个 acc 和 一个 mel 是交错的,有这个参数就是相当于告诉了模型这个数据训练的时候是交错的。 之所以这个系统方向进展比较缓慢,就在于我们都得首先熟悉模型,要不然系统也做不了。其次就是训练的时候遇到了一些问题,调了很久训练参数。再就是有一些工具的安装,比如说这个...
Nsight System & Nsight Compute
Created2025-06-15|Tech Blogs
有关 Nsight System 和 Nsight Compute 的介绍与常用命令总结。 Introduction 核心定位:一个看“森林”,一个看“树木” 这是理解这两个工具最核心的一点。 Nsight Systems (nsys): 系统级性能分析器,负责看“森林”。它监控您的整个应用程序,告诉您CPU和GPU之间是如何交互的,时间都花在了哪些大的模块上(例如:哪个CUDA Kernel耗时最长、数据拷贝花了多久)。 Nsight Compute (ncu): Kernel级性能分析器,负责看“树木”。当nsys帮您找到最值得优化的那棵“树”(即耗时最长的Kernel)后,ncu会深入到这棵树的内部,详细分析它的每一个细节(例如:它的计算单元利用率如何?内存访问效率高不高?具体是哪一行代码拖慢了速度?)。 一个生动的比喻: nsys 就像城市交通地图,它告诉您哪条主干道(Kernel)发生了拥堵。 ncu 就像汽车引擎诊断仪,它负责分析堵在路上的那辆车,告诉您它的引擎、油路、电路具体哪里出了问题。 对比总结表 方面 (Aspect) NVIDIA...
Reading Notes for vLLM
Created2025-05-27|Reading Paper
This is the reading note for the Efficient Memory Management for Large Language Model Serving with PagedAttention. vLLM is one of the most popular open-source inference serving systems nowadays. Basically, there are two mainstream inference serving systems: one is vLLM, and the other is SGLang. Summary Abstract & Introduction & Background This is a paper about the vLLM, a serving system for inference. The most important idea they propose is PagedAttention. vLLM with the...
1…456…9
avatar
Stanley Zheng
Hi, I am Stanley. I am currently a CS student in the University of Wisconsin-Madison.
Articles
73
Tags
17
Categories
8
Follow Me
Announcement
This is my Blog
Recent Posts
如何更好的使用你的 coding agent2026-05-08
Reaction---WhynotTV(Danfei Xu:人类数据,行为克隆,机器人GPT-3,全栈,EgoMimic,遥操作,UMI,斯坦福)2026-05-01
Statistics---Tail Sum Formula2026-03-09
记录一下不脱产速通 GRE 3182026-02-26
Algorithm---Amortized Analysis: Accounting Method2026-02-05
Categories
  • Coding Blogs8
  • Life Blogs7
  • Reaction3
  • Reading Paper5
  • Research Blogs9
  • Study Blogs27
  • Tech Blogs13
  • 书评1
Tags
Nas Math Web Algorithm Tools notes Calculus NLP Statistics 日记 Personal Blog Website CS CV 随笔 Multimodal MLSys Operating System
Archives
  • May 2026 2
  • March 2026 1
  • February 2026 2
  • January 2026 8
  • December 2025 2
  • November 2025 1
  • October 2025 8
  • September 2025 3
Website Info
Article Count :
73
Unique Visitors :
Page Views :
Last Update :
©2019 - 2026 By Stanley Zheng
Framework Hexo 7.3.0|Theme Butterfly 5.3.5
Search
Loading Database