2026 35
- 基于 LD_PRELOAD 的 CUDA Runtime 拦截机制
- GPU 通信拓扑实战
- 现代 AI 集群通信体系
- 【论文阅读笔记】LLM Emulation:Revati 和 LLM-Emu
- vLLM v1 离线推理流程源码 Debug
- Python ZMQ:消息传递库
- 客户端间通信模式
- CUDA Graph:合并多个算子
- 大模型推理批处理和吞吐优化
- Nano vLLM 解读(5):解析 ModelRunner
- Nano vLLM 解读(4):解析 BlockManager
- Punica:Multi-LoRA 推理优化
- EPLB:MoE Expert 负载均衡
- Paged Attention:高效管理 KV Cache
- Pipeline Parallel:模型并行
- ZeRO 和 FSDP:DP优化——将模型参数和中间状态分片到多卡
- Continuous Batching
- Roofline Model:从算术强度出发理解性能瓶颈
- CUDA Kernel Toy Example
- Flash Decoding
- Flash Attention 2 (FA2)
- Nano vLLM 解读(3):解析 Scheduler
- Ring Attention:Attention Block 的序列并行
- Online Softmax 推导
- Nano vLLM 解读(2):解析 Sequence
- LLM 推理框架
- LLM 推理知识大纲
- Nano vLLM 解读(1):LLMEngine 架构与推理流程解析
- Chunked Prefill
- DeepSpeed Ulysses:Attention Block 的序列并行
- LLM 推理基础:矩阵乘法并行化
- 大模型推理并行策略:DP/TP/SP/PP
- Prefix Cache:前缀 KV Cache 缓存
- 集合通信操作和其实现
- CUDA Grid, Block, Thread 和寻址