Retypeset

Revive the beauty of typography

Posts
Tags
Categories
About
Other

LLM 推理优化 36

LLM 推理平台 7 通信 5 CUDA 编程 3 KV Cache 优化 2 Prefill-Decode 分离 2 并行优化 3 LLM 模拟器 1

LLM 推理系统安全 1

-

-

编程语言 6 数据结构和算法 9 图论 2

-

-

2026 36

06-03 DistServe
05-27 基于 LD_PRELOAD 的 CUDA Runtime 拦截机制
05-27 GPU 通信拓扑实战
05-26 现代 AI 集群通信体系
05-24 【论文阅读笔记】LLM Emulation：Revati 和 LLM-Emu
05-19 vLLM v1 离线推理流程源码 Debug
05-19 Python ZMQ：消息传递库
05-19 客户端间通信模式
05-14 CUDA Graph：合并多个算子
05-06 大模型推理批处理和吞吐优化
05-04 Nano vLLM 解读（5）：解析 ModelRunner
05-04 Nano vLLM 解读（4）：解析 BlockManager
05-04 Punica：Multi-LoRA 推理优化
05-04 EPLB：MoE Expert 负载均衡
05-03 Paged Attention：高效管理 KV Cache
05-03 Pipeline Parallel：模型并行
05-03 ZeRO 和 FSDP：DP优化——将模型参数和中间状态分片到多卡
05-01 Continuous Batching
05-01 Roofline Model：从算术强度出发理解性能瓶颈
04-27 CUDA Kernel Toy Example
04-22 Flash Decoding
04-21 Flash Attention 2 (FA2)
04-21 Nano vLLM 解读（3）：解析 Scheduler
04-21 Ring Attention：Attention Block 的序列并行
04-20 Online Softmax 推导
04-20 Nano vLLM 解读（2）：解析 Sequence
04-20 LLM 推理框架
04-20 LLM 推理知识大纲
04-19 Nano vLLM 解读（1）：LLMEngine 架构与推理流程解析
04-19 Chunked Prefill
04-19 DeepSpeed Ulysses：Attention Block 的序列并行
04-17 LLM 推理基础：矩阵乘法并行化
04-17 大模型推理并行策略：DP/TP/SP/PP
04-11 Prefix Cache：前缀 KV Cache 缓存
03-10 集合通信操作和其实现
03-04 CUDA Grid, Block, Thread 和寻址

© 2026 Languisher

Powered by Astro and Retypeset