PagedAttention

本节目录 Contents

Authored by：汪袁烁

本文主要用于科普和简述 PagedAttention 的原理，主要用于支持./05FastGen的背景技术中的 PagedAttention 部分

首先，LLM Infer 主要有prefill和decode两个阶段：

![](../images/05Infer04LongInfer/05-1-1 LLM-Infer.png)

如图，不难观察到：

因此，如何优化 KV cache，节省显存，提高推理吞吐量，就成了 LLM 推理框架需要解决的重点问题。

针对这个 KVCache 分配，之前的做法是很简单粗暴的直接按照(batch_size, max_seq_len)这样的固定尺寸。显然，会造成大量的内存浪费。

类比传统的分页操作系统，PagedAttention 对于不同的 Request 正如对于不同进程一样分别分配进程块并且通过虚实转换机制映射到物理内存中实现分页管理。

![](../images/05Infer04LongInfer/05-1-2 PagedAtten_2reqs.png)

如图，不同的 request 都可以被分页然后填充到需要的地方。