avatar
Articles
73
Tags
17
Categories
8
Stanley Zheng
Home
Archives
Tags
Categories
LogoStanley's Blog
Search
Stanley Zheng
Home
Archives
Tags
Categories

Stanley's Blog

学习日志(2025-4-20)
Created2025-04-20|Study Blogs
今天上午踢了个球,基本上剩下的时间都在写这个 CS 525 的 HW5,写的真是头晕脑胀的,但不得不说感觉一些概念稍微清晰了一些,本来还打算读一读 UCSD 的 CSE 234 的 required reading,但感觉确实是学不动了。 本来踢完球应该洗个澡,但是当时想着晚上稍微早点回来,然后洗澡睡觉,但是被 Kan 拖住了,一直在图书馆。不得不说又发现了一个好地方,memorial library 的 computer lab,全是很好的显示器,晚上还没人,还里 domain 或者 route A bus stop 近,天选自习室。哎,啥时候国内也能有这样子的地方就太好了。 STAT 333 的 HW4 扣了 40 分,足足 40%,因为直接少了一块 visualization 的部分,下次在写这个作业我一定要小心,仔细读好要求。 感觉还是挺充实的,但是我的 intern 又没时间搞了,明天还要写 Math 475 的 take-home midterm 2,这个也是非常离谱的大作业,要花很长时间去慢慢做。 哎,情感上又遇到了大挫折,不过这是学习日志,就不在这里写了。
学习日志(2025-4-19)
Created2025-04-19|Study Blogs
今天又是充实的一天,把 UCSD 的 CSE 234 第一周的 slides 和 recording 看完了,不过 required reading 还没看,如果可以的话今天或者明天给他看完。不得不说 Hao 老师讲话真快,看过很多课的 recording 感觉这是唯一一个我看了没有一点开倍速欲望,甚至还有减速欲望的。 还有重温了一下 LSTM,之前只看过 LSTM 的论文,或者只看过李沐讲 LSTM,确实没看过 llya 在 NIPS 2014 上的 talk,很短,但还是挺 impresive 的。llya 的口音真是很神奇,就他说的非常流畅,也很清楚,而且甚至似乎还有点好听。
建立个人 Blog 网站
Created2025-03-25|Tech Blogs
耗时两天,也算是成功搭建起了自己的Blog网站,其实之前就有试过搭网站,用的WordPress,其实也算成功,但是似懂非懂,当时又是为了找一个Intern才专门看了看,最后也没被录取,就没继续看相关的技术了,最近正好有时间,就有看了看怎么搭网站,终于成功了,还是挺有意思的,那么作为正式的第一篇Tech...
Docker 概览 & Docker 命令总结
Created2025-04-17|Tech Blogs
Docker 概览 & Docker 命令总结 一、Docker 基础概念与原理 什么是 Docker? Docker 是一个开源的容器平台,用于打包、分发和运行应用程序及其所有依赖项。 把应用、运行环境、依赖打包成一个“镜像” 运行镜像就生成一个“容器”,容器彼此隔离,不影响宿主机 核心概念: 名称 说明 镜像 Image 应用 + 环境的静态模板 容器 Container 镜像的运行实例 Dockerfile 描述如何构建镜像的脚本 Registry 镜像仓库,例如 Docker Hub Docker 工作原理(Linux 容器机制) 利用 Linux 的 namespace(隔离)和 cgroups(资源限制)实现 容器共享宿主机内核,但拥有独立文件系统、网络、进程空间 启动速度极快,资源占用小 二、Docker 镜像构建机制与实践 镜像是分层构建的 每个 Dockerfile 指令都会生成一个只读的文件系统层 构建时 Docker 利用缓存提升效率 Dockerfile...
Git 命令总结
Created2025-04-10|Tech Blogs
Detail 同步 fork 与原始仓库(Upstream) 第一次配置 upstream git remote add upstream https://github.com/original-user/original-repo.git 给 fork 的仓库添加原始仓库作为 upstream 每次同步更新流程 git fetch upstream # 拉取原始仓库更新git checkout main # 切换到 main 分支git merge upstream/main # 合并 upstream 的 main 到本地 maingit push origin main # 推送更新后的 main 到 GitHub fork 用于保持 fork 与原始仓库同步 查看所有远程仓库 git remote -v 显示当前配置的远程仓库地址,包括 origin 和 upstream 合并 main 到某个分支 git checkout feature-x #...
MoE 中 All-to-All 通信机制
Created2025-04-07|Research Blogs
本文主要介绍了 All-to-All 通信机制,以及为什么需要这个机制。 一、All-to-All 是什么? 在分布式 Mixture-of-Experts(MoE)模型中,All-to-All 是一种通信操作, 用于在多个 GPU 之间交换 token 和专家(Expert)之间的数据。 每个 GPU 上都有输入 token,而每个 Expert 分布在多个不同的 GPU 上。 Gate 网络决定每个 token 应该由哪些专家处理,因此 token 需要被动态发送到目标 Expert 所在的 GPU。 这正是 All-to-All:每个 GPU 既向其他 GPU 发送数据,也接收来自其他 GPU 的数据。 二、为什么 MoE 模型需要 All-to-All? 1. Expert 是独立的,但 Token 是全局的 每个 Expert 的参数是本地的,只存在于某个 GPU 上。 但 token 是通过数据并行划分的,分布在所有 GPU 上。 每个 token 的 gate 结果可能指向任意 GPU 上的 Expert。 因此,token 必须被跨设备发送到它所选中的...
AllReduce & Bucketing
Created2025-04-07|Research Blogs
本文主要介绍了 AllReduce 和 Bucketing 分别是什么,和他们之间的联系。 一、AllReduce 是什么? AllReduce 是分布式训练中的一种集体通信操作, 用于在多个 GPU(worker)之间同步张量(通常是梯度)。 典型流程如下: 每个 GPU 独立计算自己的梯度张量(如 grad)。 所有 GPU 通过 AllReduce 操作,将各自的张量求和/平均,获得全局一致的梯度。 每个 GPU 使用这个同步后的梯度更新模型参数。 AllReduce 是数据并行训练中实现模型同步的关键机制。 二、为什么 AllReduce 会成为性能瓶颈? 模型中参数众多,梯度张量数量也很多。 每个张量如果单独 AllReduce,通信次数极多。 小张量通信无法充分利用带宽,且频繁启动通信带来显著延迟(latency)。 三、Bucketing 是什么? Bucketing 是一种优化 AllReduce 通信效率的策略, 将多个小张量合并成一个大 “bucket”,再一次性执行 AllReduce。 核心思想:Batch Small Reduces...
Typora+Hexo工作流
Created2025-03-25|Tech Blogs
你想实现本地Typora进行写作,然后丝滑的推倒你的blog网站吗?本篇blog可以帮你实现这一效果。 为什么会需要解决这个问题? 通常我们建立一个个人博客网站之后,尤其是如果你是基于Hexo建站的话,你的post全部都是基于md文件的。那么如果正好,你已经习惯了用md文件进行本地写作,那么你一定想要快速的直接把本地的md文件deploy到你的网站上。 如果你没有使用过图床,或者你专门想要把你每个md文件插入的图片放到一个专门的位置。比如说我,我就是用Typora的高级功能,指定了存图片的地点,这样你的图片即在本地,又分门别类,十分好找。 现在你再deply到你的blog网站上时,你就会遇到问题了,因为Hexo generate出来的public文件夹里的各个post文件夹里并没有相应的图片。本篇就旨在让你丝滑的将本地文件deply到你的个人blog网站。 Hexo Settings 想要实现以上的功能,首先对于每一个post,你需要有一个文件夹来存你这post里面的图片。 你需要将 post_asset_folder: false 改成 post_asset_folder:...
Reading Notes for SmartMoE
Created2025-03-27|Reading Paper
Summary Abstract & Introduction & Background and Motivation Deep neural network(DNN)现在越来越大,除了dense model,就是比较传统的model之外,越来越多的人开始关注sparsely activated model。针对dense model,之前有很多auto-parallelization的方法,但是这些方法对sparsely activated model,比如说MoE架构的模型就没那么好用了。所以他们主要做的就是实现对sparsely activated model做自动并行的分布式训练的方法。 Intro就先说一下来龙去脉,就众所周知,scaling law目前对DNN一直没有失效,所以各家基本上就是一直往上堆参数。但模型变大了就练不动了,所以就要找efficient...
1…789
avatar
Stanley Zheng
Hi, I am Stanley. I am currently a CS student in the University of Wisconsin-Madison.
Articles
73
Tags
17
Categories
8
Follow Me
Announcement
This is my Blog
Recent Posts
如何更好的使用你的 coding agent2026-05-08
Reaction---WhynotTV(Danfei Xu:人类数据,行为克隆,机器人GPT-3,全栈,EgoMimic,遥操作,UMI,斯坦福)2026-05-01
Statistics---Tail Sum Formula2026-03-09
记录一下不脱产速通 GRE 3182026-02-26
Algorithm---Amortized Analysis: Accounting Method2026-02-05
Categories
  • Coding Blogs8
  • Life Blogs7
  • Reaction3
  • Reading Paper5
  • Research Blogs9
  • Study Blogs27
  • Tech Blogs13
  • 书评1
Tags
Nas Math Web Algorithm Tools notes Calculus NLP Statistics 日记 Personal Blog Website CS CV 随笔 Multimodal MLSys Operating System
Archives
  • May 2026 2
  • March 2026 1
  • February 2026 2
  • January 2026 8
  • December 2025 2
  • November 2025 1
  • October 2025 8
  • September 2025 3
Website Info
Article Count :
73
Unique Visitors :
Page Views :
Last Update :
©2019 - 2026 By Stanley Zheng
Framework Hexo 7.3.0|Theme Butterfly 5.3.5
Search
Loading Database