avatar
Articles
73
Tags
17
Categories
8
Stanley Zheng
Home
Archives
Tags
Categories
LogoStanley's Blog
Search
Stanley Zheng
Home
Archives
Tags
Categories

Stanley's Blog

Operating Systems Notes: The Path to the Kernel
Created2025-10-12|Study Blogs
Operating Systems Notes: The Path to the Kernel 1. 核心概念与关系 Interrupt (中断): 异步事件,由外部硬件(键盘、网卡、定时器)触发。它的发生与程序执行流无关。 比喻: 外来的电话打断了你当前的工作。 Trap (陷阱): 同步事件,由内部软件(当前正在执行的指令)主动触发。它是可预测的,是程序逻辑的一部分。 比喻: 你在工作中遇到一个需要老板审批的环节,于是你主动放下工作去敲老板的门。 Exception (异常): 同步事件,由内部软件执行出错时被动触发。 比喻: 你在工作中算错了一个数字,导致流程无法继续,被动地需要老板介入。 System Call (系统调用): 一个高层概念,是操作系统提供给用户程序的服务接口(如读写文件、创建进程)。它不是一个硬件机制。 最重要的关系: 用户程序通过主动触发一次 Trap 来向内核发起一次 System Call 请求。 Trap 是实现 System Call 的底层机制。 2. int 指令的“身份”之谜 int 指令是 Trap:...
Reaction---WhynotTV(陈天奇:机器学习系统,长期主义,初心,XGBoost,MXNet,TVM,MLC LLM,OctoML,CMU,UW,ACM班)
Created2025-09-12|Reaction
WhynotTV 看了很久了,虽然可能不是老粉,我是被当时那个“机器人博士前两年总结——任尔东西南北风”这个视频吸引过去的,然后发现没过多久,这个个人账号就变成了一个 Podcast channel,而且质量非常高啊,不管是时长还是内容广度深度,更新频率也不算慢的,来的嘉宾都是一个比一个重量级。这个 Blog 主要就是我对 WhynotTV 第三期的一个 reaction,作为一个不那么成功的,但是想要去实现一些有影响力的工作的 senior 本科生。看这样的视频真的是会让我万分感慨,也算是一个契机对自己做一个系统的反思。 这已经是 WhynotTV 第三期了,前两期也都是很顶尖的人,除了第一期的杨硕我不太知道,但可能是 robotics 比较强的人,剩下这两个胡渊鸣和陈天奇都是有非常有影响力的工作的人。胡渊明的 Taichi,然后陈天奇的 XGBoost,MXNet,感觉基本上就是梦想中,我希望我能在学术领域达到的...
学习日志(2025-4-25)
Created2025-04-25|Study Blogs
今天终于看完了 UCSD 的 CSE 234 的 required reading 1.2,足足一章,确实是内容很多,主要就是介绍了目前的四种主流模型,MLP、CNN、RNN 和 Transformer。确实算得上是详略得当,refresh my memory again。后面还有一些计算方面的介绍,虽然没有很深入,确实不错。
Notes---苏剑林博客(神经网络与深度学习基础)
Created2025-08-11|Study Blogs
其实很久之前就看到过别人推荐他的 blog 了,但是一直没看,最近虽然也很忙,但是总是不想干“正事”,就忙里偷闲,看看能不能把他的 blog 读完吧。 我的 Reading List 主要是根据知乎上一个同学(WhyWait)整理的,所以也就按照他的分类来读了。 这一篇 Notes 就是关于“神经网络与深度学习基础”这个分类底下的 Blog,希望这一次自己能够坚持下来,至少把和自己相关的部分看完。 闲聊:神经网络与深度学习 这篇博客写在 2015 年,但其实里面的很多想法到今天也很有用,从某种程度上从底层解释了神经网络从何而来,为什么能 work。 大部分人都知道,神经网络其实就是一个拟合函数,虽然网络里的单个节点只是一个非常简单的函数,但是大家也都知道我们已经证明了只要我们把足够多的这种简单函数复合到一起,可以拟合任意一种函数。 大部分也知道,很多时候神经网络其实干的事情是“抽特征”,如果你特征抽的好,只需要一个非常简单的 MLP 就可以去的很好的效果。 可其实大部分人都没有系统的知道,上面这两点就是我们的 key...
Notes---苏剑林博客(词向量与Embedding技术)
Created2025-08-14|Study Blogs
这一篇 Notes 就是关于“词向量与Embedding技术”这个分类底下的 Blog,这个是第二个部分。 词向量与Embedding究竟是怎么回事? 词向量可以说是语言模型最重要的基石之一,正是有了词向量,我们才有了一个比较好的方式来用数字表示语言。从某种意义上讲,语言到词向量的过程,就是把人类语言翻译成机器语言的过程。 我第一次知道词向量,差不多是 2023 年左右,我大二左右,然后要上物理
Using Clip to Music Generation
Created2025-08-21|Research Blogs
最近看到了 CLIP,CLIP 应该算是多模态,或者算是 CV 那边的工作,但是我看到了非常多的把 CLIP 用到自己领域去做的文章,而且 CLIP 又很简单,最重要的一点是可以直接做 Zero-shot,我觉得我们可以直接尝试把 CLIP 模型用到我现在的这个 Music accompaniment generation 里。
理解 Zero-Shot, One-Shot, 和 Few-Shot 学习
Created2025-08-16|Research Blogs
在机器学习,特别是计算机视觉领域,我们经常希望模型能够像人类一样,通过极少量的样本甚至仅仅通过描述就能认识新事物。Zero-Shot, One-Shot, 和 Few-Shot 学习就是旨在实现这一目标的关键技术。这些术语描述了模型在面对一个从未见过的“新类别”时,学习和识别它所需要的样本数量。 基础:在“基类”上预训练 所有这些学习范式都有一个共同的起点:一个在大量标注数据(包含丰富的“基类”或“可见类”,Seen Classes)上预训练好的模型。这个预训练阶段的目的并非让模型记住这些基类,而是让它学习到一种通用的、可迁移的能力,例如: 学会提取鲁棒且有意义的视觉特征。 学会如何“学习”和“比较”(即元学习或度量学习)。 学会关联图像的视觉空间和文字的语义空间。 有了这个强大的预训练模型作为基础,我们才能讨论它如何应对“未见类别”。 Zero-Shot Learning (零样本学习) 当模型需要识别一个新类别,但没有任何(K=0)该类别的图像样本时,我们称之为零样本学习。 工作原理: 既然没有图像样本,模型依赖于辅助的语义信息 (Semantic...
300 元 Mac mini 秒变家用 Nas
Created2025-05-07|Tech Blogs
最近一直想组一个 NAS,正好家里有闲鱼上二手淘来本来想用来当跳板机的 Mac mini,可以直接用上。 最开始本来想的是,用虚拟机装飞牛,当时想着刷一个初始化一下,结果把系统整没了,也装不回来了,直接一不做而不休,直接刷个飞牛,也不搞虚拟机了。整个过程比想象的简单多了,我基本上就参考了这一个 blog,过程还是比较详细的。 制作引导 U 盘最好找一个 16 G 的,不过我用的都是 8 G 的,也是初中的时候剩下的,正好能用上,用的工具是 BalenaEtcher,它有 Mac 版本,把飞牛的 iso 文件刷进去就可以了。我整个操作都非常丝滑,一点报错没有。 后面的装系统也是,就按照前面那个 blog 的流程走就行。 成品如下: 目前有点问题的地方就是理论上我应该是一个千兆网口,不知道为什么是个飞牛识别出来是个百兆,不知道卡在哪里了。 其次就是家里没有 ipv6 这就意味着在外网看流畅看视频基本不太可能了,感觉再申请一个然后搞 DDNS 也挺麻烦,我在美国是有 ipv6 的,但是 DDNS...
多模态中的 Single String 与 Two String
Created2025-08-05|Research Blogs
多模态AI如何理解世界?一文读懂单序列与双序列模型 多模态人工智能的浪潮正在席卷而来,从能够理解图片和文字的 LLaVA,到能生成视频的 Sora,AI 正在以前所未有的方式将不同类型的信息联系起来。 那么,这些多模态模型究竟是如何将图像、文本等不同模态的信息融合在一起的呢? 目前,主流的架构可以归纳为两大阵营:**单序列(Single String)**和双序列(Two String)。理解这两种范式,就能抓住多模态模型的核心。 1. 单序列(Single String)方法:一次看懂,全局理解 核心思想:将所有模态的数据都转化为同一种“语言”(Token),然后将它们像串珠子一样拼接成一个长长的序列,交给一个统一的 Transformer 模型进行处理。 这就像是“一图胜千言”。模型将图像视为一长串“视觉词汇”,将它们与文本中的普通词汇放在一起,在同一个注意力空间中进行交互和理解。 工作流程: 图像编码:将一张图片分割成许多小块(Patches)。 特征投影:使用一个视觉编码器将这些 Patches 转化为一系列图像 Token,并投影到与文本 Token...
1…345…9
avatar
Stanley Zheng
Hi, I am Stanley. I am currently a CS student in the University of Wisconsin-Madison.
Articles
73
Tags
17
Categories
8
Follow Me
Announcement
This is my Blog
Recent Posts
如何更好的使用你的 coding agent2026-05-08
Reaction---WhynotTV(Danfei Xu:人类数据,行为克隆,机器人GPT-3,全栈,EgoMimic,遥操作,UMI,斯坦福)2026-05-01
Statistics---Tail Sum Formula2026-03-09
记录一下不脱产速通 GRE 3182026-02-26
Algorithm---Amortized Analysis: Accounting Method2026-02-05
Categories
  • Coding Blogs8
  • Life Blogs7
  • Reaction3
  • Reading Paper5
  • Research Blogs9
  • Study Blogs27
  • Tech Blogs13
  • 书评1
Tags
Nas Math Web Algorithm Tools notes Calculus NLP Statistics 日记 Personal Blog Website CS CV 随笔 Multimodal MLSys Operating System
Archives
  • May 2026 2
  • March 2026 1
  • February 2026 2
  • January 2026 8
  • December 2025 2
  • November 2025 1
  • October 2025 8
  • September 2025 3
Website Info
Article Count :
73
Unique Visitors :
Page Views :
Last Update :
©2019 - 2026 By Stanley Zheng
Framework Hexo 7.3.0|Theme Butterfly 5.3.5
Search
Loading Database