02.Efficient Transformer 结构#

Author:张嘉瑶

!!!!!!!! 1)避免都用大模型,这里面缺乏灵魂,缺乏思考。2)全文没有一个图片,和论文里面的实验介绍,这是有问题的,要根据论文去思考。3)用 Linear Transformer 最重要的几篇文章和模型结构呢?minmax 呢?

本报告旨在深入分析三种具有代表性的高效 Transformer 架构:Linear Attention、Attention Free Transformer (AFT) 和 Longformer。它们分别代表了实现效率的三种不同思路:

!!!!!! 直接 DeepResearch 了,自己写,自己理解

  • Linear Attention 通过改进注意力计算的数学公式,将复杂度降低至线性级别

  • AFT 完全抛弃注意力机制,采用简化的加权平均方法

  • Longformer 则采用稀疏注意力机制,在保持对长距离依赖建模能力的同时,有效减少了计算量

通过对这三种模型的结构原理、应用场景和性能表现进行详细探讨,本报告期望为理解和应用高效 Transformer 提供有价值的参考。

!!!!!!! 二级和三级标题不超过 10 个字为宜,否则页面显示不全

3. Linear Attention#

Katharopoulos 等人在 2020 年的论文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》中提出了 Linear Attention,这是一种革命性的方法,旨在将自注意力机制的计算复杂度从 O(N²) 降低到 O(N)。该工作的核心洞察是:通过巧妙的数学重构,可以避免显式计算完整的注意力矩阵,同时保持 Transformer 的并行训练能力和 RNN 的高效推理特性。

3.2. 理论基础:将 Softmax 注意力线性化#

!!!!!!!! 尽量不要展开 4 级目录,3 级够了,4 级目录其实里面没太多内容了

Step1: 标准注意力的分解

标准的缩放点积注意力可以写成:

\[ \text{Attention}(Q, K, V) = D^{-1}AV \]

其中:

  • \(A = \exp\left(\frac{QK^T}{\sqrt{d_k}}\right)\) 是未归一化的注意力权重矩阵

  • \(D\) 是对角矩阵,\(D_{ii} = \sum_j A_{ij}\),用于行归一化

Step2: 核技巧与特征映射

Linear Attention 的关键创新是使用核函数来近似 softmax 操作。具体来说,他们将注意力权重表示为:

\[ \text{sim}(q_i, k_j) = \phi(q_i)^T \phi(k_j) \]

其中 \(\phi\) 是一个特征映射函数。Katharopoulos 等人提出使用:

\[ \phi(x) = \text{elu}(x) + 1 \]

这里 elu 是指数线性单元激活函数。选择 \(\text{elu}+1\) 的原因是:

  1. 保证输出为正(模拟 \(\exp\) 函数的效果)

  2. 计算简单高效

  3. 在实践中表现良好

Step3: 结合律实现线性复杂度

一旦有了特征映射,第 \(i\) 个位置的输出 \(y_i\) 可以重写为:

\[ y_i = \frac{\sum_j \phi(q_i)^T \phi(k_j) v_j}{\sum_j \phi(q_i)^T \phi(k_j)} = \frac{\phi(q_i)^T \sum_j (\phi(k_j) v_j^T)}{\phi(q_i)^T \sum_j \phi(k_j)} \]

利用矩阵乘法的结合律,我们可以先计算 \(\sum_j \phi(k_j) v_j^T\)\(\sum_j \phi(k_j)\)

\[ S = \sum_j \phi(k_j) v_j^T \quad \text{and} \quad Z = \sum_j \phi(k_j) \]

\(S\) 是一个累积的键值对矩阵,\(Z\) 是一个归一化向量。关键洞察是:\(S\)\(Z\) 可以在所有查询之间共享,因此整个序列的计算复杂度降为 \(O(N)\)

3.3. 因果注意力与 RNN 形式#

对于自回归任务(如语言建模),需要因果注意力,即位置 i 只能关注位置 j ≤ i。在这种情况下,Linear Attention 可以表示为:

\[ y_i = \frac{\phi(q_i)^T S_i}{\phi(q_i)^T Z_i} \]

其中:

  • \(S_i = \sum_{j \leq i} \phi(k_j) v_j^T\)

  • \(Z_i = \sum_{j \leq i} \phi(k_j)\)

Katharopoulos 等人的重要发现是,因果 Linear Attention 可以完全等价地表示为 RNN:

\[ S_i = S_{i-1} + \phi(k_i) v_i^T \]
\[ Z_i = Z_{i-1} + \phi(k_i) \]
\[ y_i = \frac{\phi(q_i)^T S_i}{\phi(q_i)^T Z_i} \]

!!!!!!! 尽量不要大模型的这种总结性的方式,自己写自己梳理一段话。

这种 RNN 形式带来了巨大的优势:

  • 训练时:可以像标准 Transformer 一样并行计算

  • 推理时:可以像 RNN 一样以 O(1) 复杂度生成每个新词元

  • 内存效率:只需维护固定大小的隐状态 S_i 和 z_i

!!!!!!! 实现放在实验里面,这里主要是放伪代码或者算法流程。

3.5. 性能评估#

!!!!!!!! 论文的实验截图,不要大模型,没有灵魂

3.5.1. 速度提升#

Katharopoulos 等人报告了显著的速度提升:

表 2:Linear Attention 速度性能对比

序列长度

标准注意力

Linear Attention

速度提升

512

1.0x

3.5x

3.5 倍

1024

1.0x

8.9x

8.9 倍

2048

1.0x

23.8x

23.8 倍

8192

OOM

可运行

>100 倍

注:测试环境为单个 V100 GPU,批大小为 8

3.5.2. 任务性能#

!!!!!!!! 论文的实验截图,不要大模型,没有灵魂

Linear Attention 在多个基准任务上的表现:

表 3:Linear Attention 任务性能对比

任务

指标

Linear Attention

标准 Transformer

性能差距

图像生成 (CIFAR-10)

Bits/dim

3.60

3.44

-4.7%

语音识别 (TIMIT)

PER

18.0%

17.2%

-4.7%

机器翻译 (WMT14)

BLEU

26.8

27.3

-1.8%

文本分类 (IMDB)

准确率

88.2%

88.5%

-0.3%

复制任务

准确率

100%

100%

0%

!!!!!!! 只讲核心内容,大模型很多都是正确的废话

4. Attention Free Transformer, AFT#

Attention Free Transformer (AFT) 代表了高效 Transformer 研究中的一个激进方向——完全抛弃注意力机制。AFT 的核心动机源于一个大胆的假设:也许我们并不需要复杂的注意力计算来实现有效的序列建模。相反,通过精心设计的位置偏置和可学习的特征交互机制,可能就足以捕获序列中的依赖关系。

这种思路的出发点是观察到标准注意力机制虽然强大,但其 O(N²)的复杂度成为了严重的计算瓶颈。与其试图近似或稀疏化注意力机制,AFT 选择了一条完全不同的道路。

!!!!!!!! 要求同上

4.2. 结构原理:简化的特征交互机制#

4.2.1. AFT 的核心计算#

AFT 用一种极其简单的加权平均机制替代了复杂的注意力计算。其核心操作可以表示为:

\[ y_t = \sum_i w_{t,i} \odot x_i \]

其中:

  • \(x_i\) 是位置 \(i\) 的输入特征

  • \(w_{t,i}\) 是位置 \(t\) 对位置 \(i\) 的可学习权重

  • \(\odot\) 表示逐元素乘法

  • \(y_t\) 是位置 \(t\) 的输出

关键创新在于权重 \(w_{t,i}\) 的设计,它由两部分组成:

  1. 全局可学习权重:为每对位置学习一个固定的权重

  2. 位置偏置:基于相对位置的预定义或可学习的偏置

4.2.2. 位置感知的特征融合#

AFT 通过以下方式实现位置感知:

\[ w_{t,i} = \sigma(q_t \odot k_i + b_{t-i}) \]

其中:

  • \(q_t\)\(k_i\) 类似于注意力机制中的查询和键,但使用方式更简单

  • \(b_{t-i}\) 是基于相对位置 \((t-i)\) 的偏置项

  • \(\sigma\) 是 sigmoid 激活函数,确保权重在 \([0, 1]\) 范围内

4.2.3. 计算复杂度分析#

AFT 的核心思想是通过将查询(Query)和键(Key)的交互与值(Value)的加权分离开来,从而避免了 N x N 矩阵的计算。在其最简化的形式 AFT-Simple 中,输出 Y_t 是通过对所有 V_i 进行全局加权平均得到的,而这个加权平均的过程可以被重新组合,使得计算可以线性进行,类似于 Linear Attention 中利用结合律的方式。它首先计算一个上下文感知的全局“summary”,然后将这个“summary”与每个位置的查询进行交互,从而避免了逐对计算注意力分数。

!!!!!!!! 要求同上

4.3. AFT 的变体与优化#

研究者提出了几种 AFT 的变体以适应不同场景:

限制每个位置只与局部窗口内的位置交互,类似于卷积操作:

  • 复杂度进一步降低

  • 适合局部依赖较强的任务

  • 可以通过堆叠层来扩大感受野

将 AFT 与深度可分离卷积结合:

  • 保留了卷积的归纳偏置

  • 适合处理具有空间结构的数据

  • 在视觉任务上表现良好

最简化的版本,移除了所有非必要组件:

  • 极低的计算开销

  • 适合资源受限的场景

  • 性能与复杂度的极致权衡

4.4. 应用与性能#

!!!!!!!! 要求同上

AFT 在多种任务上展现了其实用性:

表 4:AFT 关键性能指标摘要

基准/任务

指标

AFT 性能

标准 Transformer

效率提升

ImageNet 分类

Top-1 准确率

82.1% (AFT-Full)

83.1% (ViT)

3 倍速度提升

CIFAR-100

准确率

89.2% (AFT-Conv)

90.1% (DeiT)

2.5 倍速度提升

Long Range Arena

平均分数

74.8%

76.3%

5 倍内存节省

语言建模(WikiText-103)

困惑度

27.1

24.8

4 倍速度提升

4.5. 优势与局限性#

4.5.1. 主要优势#

  • 极致的效率:计算和内存开销都远低于标准注意力

  • 训练稳定性:没有注意力机制的数值不稳定问题

  • 易于实现:代码实现简单,易于优化和部署

  • 硬件友好:更适合在边缘设备上运行

4.5.2. 主要局限性#

  • 表达能力受限:在需要复杂推理的任务上性能明显下降

  • 长距离依赖建模:难以捕获非常长距离的依赖关系

  • 灵活性不足:固定的交互模式限制了模型的适应性

  • 理论基础薄弱:缺乏像注意力机制那样的强理论支撑

4.6. AFT 的设计哲学与启示#

AFT 的出现提出了一个根本性的问题:注意力机制是否真的是序列建模的必需品?虽然 AFT 在某些复杂任务上的性能不如标准 Transformer,但它在许多实际应用中展现了足够好的性能,同时带来了显著的效率提升。

这种"够用即可"的设计哲学对高效 AI 的发展具有重要启示:

  1. 并非所有任务都需要最复杂的模型

  2. 在资源受限的场景下,简单的解决方案可能更实用

  3. 效率和性能的权衡应根据具体应用场景来决定

AFT 的成功也激励了更多研究者探索注意力机制的替代方案,推动了整个领域对序列建模本质的重新思考。

6. 比较性见解与更广阔的背景#

6.1. 区分 Linear Attention、AFT 与 Longformer:通往效率的不同路径#

Linear Attention、AFT 和 Longformer 代表了解决标准 Transformer 效率瓶颈的三种截然不同的策略。理解它们的根本区别对于选择合适的模型至关重要。

  • Linear Attention:其核心在于修改注意力计算的数学公式本身。通过使用核函数近似 Softmax 或利用矩阵乘法的结合律,Linear Attention 避免了显式构造和存储 N×N 的注意力矩阵,从而将计算复杂度降低到 O(N)。从原理上讲,注意力仍然是"稠密"的(即每个查询理论上可以与所有键交互),但这种交互是通过一种计算上更高效的方式实现的。

  • AFT:采用了最激进的方法,完全抛弃注意力机制。它使用简化的加权平均和位置偏置来实现序列建模,虽然牺牲了一定的表达能力,但获得了极致的计算效率。

  • Longformer:它保留了标准自注意力的计算方式(即缩放点积注意力),但将其稀疏地应用于输入序列。通过结合滑动窗口(局部)注意力、空洞滑动窗口注意力和任务驱动的全局注意力,Longformer 只计算一部分最重要的注意力分数,从而将整体复杂度降低到 O(N)。

表 1:Transformer 架构比较概览

特征

标准 Transformer

Linear Attention

AFT

Longformer

注意力复杂度

O(N²)

O(N)

O(N)(无注意力)

O(N)

内存占用(随序列长度)

O(N²)

O(N)

O(N)

O(N)

核心效率机制

无(完全自注意力)

核函数近似 Softmax,矩阵乘法结合律

位置偏置+加权平均

稀疏注意力模式

主要优势

强大的上下文建模能力

极快的自回归推理速度,理论基础扎实

极致简单高效,硬件友好

有效处理极长文档,性能损失小

主要局限性

无法处理长序列

Softmax 近似可能导致性能下降

表达能力受限,长距离依赖建模弱

全局注意力配置依赖任务

典型应用场景

机器翻译,文本摘要

极长序列的自回归语言建模

资源受限场景,实时推理

长文档分类、问答、摘要

此表清晰地展示了这四种架构在关键特性上的差异。标准 Transformer 作为基准,其强大但昂贵的特性催生了对效率的追求。Linear Attention 通过数学上的革新实现了根本性的复杂度降低,尤其在生成任务上表现突出。AFT 则选择了完全不同的道路,牺牲部分性能换取极致效率。而 Longformer 通过一种更工程化的稀疏化方法,成功地将 Transformer 的能力扩展到了以往难以企及的长文档领域。

6.2. 置于高效 Transformer 的更广阔图景中#

Linear Attention、AFT 和 Longformer 只是高效 Transformer 研究领域中的三个突出代表。为了更全面地理解它们的地位,有必要将其置于更广阔的技术图景中。

  • 其他稀疏注意力模型:除了 Longformer,还有其他采用稀疏注意力思想的模型。

    • BigBird:结合了随机注意力、窗口注意力和全局注意力,也实现了线性复杂度,并在理论上保持了完整 Transformer 的一些特性。

    • Sparse Transformers (Child et al., 2019):采用了跨步(strided)和固定(fixed)的稀疏注意力模式,也是早期探索稀疏化的重要工作之一。

  • 基于哈希的方法

    • Reformer:使用局部敏感哈希(LSH)来近似注意力计算,将复杂度降低到 O(NlogN)。它还引入了可逆层等技术来进一步减少内存占用。

  • 其他线性注意力变体

    • Performer:使用随机傅里叶特征(FAVOR+)来近似注意力核,理论基础更强

    • Cosformer:基于余弦相似度重新设计线性注意力

    • FNet:用傅里叶变换完全替代注意力机制

  • 硬件感知优化(侧重实现)

    • FlashAttention:这是一种 IO 感知的注意力算法,它并不改变注意力计算的数学本质(仍然是精确注意力),而是通过优化 GPU 内存访问(如分块计算、重计算、核函数融合)来显著加速注意力的计算速度并减少内存占用。FlashAttention 的优化可以与各种 Transformer 架构(包括线性或稀疏变体)相结合,提供额外的效率提升。

  • 模型压缩技术:这些技术旨在减小现有模型的尺寸和计算量,而不一定改变其核心架构。

    • 知识蒸馏:训练一个小型的"学生"模型来模仿一个大型"教师"模型的行为。

    • 剪枝:移除模型中冗余的权重、注意力头或层。

    • 量化:降低模型权重和激活值的数值精度(例如从 32 位浮点数量化到 8 位整数)。

  • 类 RNN / 状态空间模型(SSM):近年来,出现了一些新的架构,它们借鉴了 RNN 的思想或采用状态空间模型,以线性复杂度处理序列,并在长序列任务上表现出色。

    • Mamba:一种基于选择性状态空间模型的架构,实现了线性时间序列建模,并在多种模态上取得了与 Transformer 相当甚至更好的性能。

    • RetNet (Retention Network)RWKV:也是此类架构的代表,它们结合了 RNN 的高效推理和 Transformer 的并行训练能力。

高效 Transformer 领域不存在"一刀切"的解决方案。最佳方法取决于具体的任务需求、序列长度、可用的硬件资源以及在速度、内存和准确性之间的权衡。例如,Linear Attention 可能因其在自回归任务上的极高推理速度和理论优雅性而受到青睐;AFT 在资源极度受限的场景下是理想选择;Longformer 则因其在长文档理解方面的强大能力和较小的性能损失而表现突出;而 FlashAttention 则为任何希望加速精确注意力计算的场景提供了通用的实现层优化。

这种多样性表明,未来的突破很可能来自于结合不同方法的优势,例如将 FlashAttention 应用于 Linear Attention 或 Longformer,或者对稀疏模型进行量化。这种模块化的效率提升方式预示着一个灵活且不断演进的技术生态系统。

!!!!!!!! 后面的内容浓缩成一段,太多废话

7. 挑战、局限性与未来展望#

尽管高效 Transformer 的研究取得了显著进展,但该领域仍面临诸多挑战,并且未来的发展方向也充满机遇。

7.1. 高效 Transformer 设计中的持续挑战#

  • 效率与性能的平衡:在提高计算效率(如降低 FLOPs、减少内存占用)的同时,保持甚至提升模型性能(如准确率、困惑度)始终是核心挑战。许多近似方法或稀疏化策略都可能以牺牲一定的模型表达能力为代价。例如,量化到极低比特(如 4 位)时,Transformer 模型的性能仍可能出现显著下降;结构化剪枝后,如何有效恢复模型性能也是一个难题。

  • 位置信息编码:一些线性注意力模型在有效编码序列中的位置信息方面可能存在困难,这可能影响其在某些需要精确位置感知的任务上的表现。

  • 泛化能力:将特定的效率提升技术推广到不同的任务、数据集和模态(如从文本到视觉、语音)仍然是一个挑战。一种在一个领域表现良好的高效架构,在另一领域可能不尽如人意。

7.2. Linear Attention、AFT 与 Longformer 的特定局限性#

  • Linear Attention

    • 近似误差:基于核函数的 Softmax 近似不可避免地会引入误差,这可能导致其在某些对注意力分布精度要求较高的任务上性能不如标准 Transformer。

    • 核函数选择:核函数的选择对模型性能有直接影响,但目前缺乏通用的、理论指导下的最佳核函数选择方法,往往需要通过实验调整。

    • 训练稳定性:在某些情况下可能需要特殊的初始化策略或学习率调度。

  • AFT

    • 表达能力严重受限:完全抛弃注意力机制导致在复杂推理任务上性能显著下降。

    • 缺乏理论保证:没有像注意力机制那样的强理论基础支撑其有效性。

    • 任务适应性差:固定的特征交互模式难以适应多样化的任务需求。

  • Longformer

    • 全局注意力配置:全局注意力的位置和数量通常是启发式或基于任务经验设定的,缺乏自适应性,可能不是最优配置。

    • 极长距离依赖:尽管 Longformer 能够处理数千词元的序列,但对于横跨文档极大范围(例如文档开头和结尾)的非常细微或复杂的依赖关系,仅靠固定的稀疏模式可能仍难以完美捕获。

7.3. 未来研究方向与潜在进展#

高效 Transformer 的未来发展将可能沿着以下几个方向演进:

  • 混合架构:结合不同方法的优势,例如将稀疏注意力与线性注意力机制相结合,或者将注意力机制与类 RNN 或状态空间模型(如 Mamba)的组件融合,有望取长补短,实现更优的效率-性能平衡。

  • 可学习的稀疏性/线性化:开发能够让模型在训练过程中自动学习最优稀疏注意力模式或自适应调整核函数参数的方法,而不是依赖固定的、预先设计的模式。

  • 硬件-软件协同设计:进一步加强算法与硬件的协同设计。类似于 FlashAttention 和 Mamba 中针对 GPU 特性进行的优化,未来的高效模型将更加关注底层硬件的并行能力、内存层级和通信带宽,以实现极致的性能。

  • 理论理解的深化:对高效 Transformer 的表达能力、收敛特性以及效率与性能之间的理论边界进行更深入的探索,为设计更优模型提供理论指导。特别是对 Linear Attention 的核函数选择和 AFT 的理论基础需要更多研究。

  • 超越注意力的新架构:继续探索如 Mamba 等完全不依赖或显著改变传统注意力机制的新型序列建模架构。这些模型通过引入选择性状态空间等新机制,为处理超长序列提供了全新的视角和可能性。

当前的研究趋势表明,该领域正朝着更"智能化"的效率提升方向发展——不仅仅是简单地减少运算量,而是追求自适应的、可学习的、并与硬件特性深度融合的方法。例如,固定稀疏模式(如 Longformer)或固定核函数(Linear Attention 的潜在瓶颈)或完全抛弃注意力(AFT 的激进选择)的局限性,都指向了对更动态、更灵活方法的潜在需求。

神经架构搜索(NAS)在高效 Transformer 设计中的应用以及 Mamba 中选择性状态空间模型的成功,都印证了这一趋势。

最终,"Transformer"本身的定义可能会变得更加灵活和宽泛,它可能会吸收来自 RNN、CNN 和状态空间模型等不同架构的元素,从而催生出新一代高效且功能强大的序列模型。这种架构的融合与创新,预示着一个充满活力的研究前景。

8. 结论:高效序列建模的演进格局#

8.1. Linear Attention、AFT 与 Longformer 的贡献总结#

Linear Attention、AFT 和 Longformer 作为高效 Transformer 领域的杰出代表,为解决标准 Transformer 在处理长序列时面临的二次复杂度瓶颈问题做出了重要贡献。

  • Linear Attention 通过对自注意力机制进行根本性的数学重构,采用核函数近似和利用矩阵乘法的结合律,成功地将计算复杂度降低至线性级别。其核心贡献在于展示了在不显式构建 N×N 注意力矩阵的情况下,依然可以实现有效的序列建模,并且其 RNN 等价形式为自回归任务带来了显著的推理加速。Katharopoulos 等人的工作特别展示了 Transformer 和 RNN 之间的深层联系。

  • AFT 采用了最激进的方法,完全抛弃注意力机制,使用简化的加权平均和位置偏置实现序列建模。虽然牺牲了部分表达能力,但为资源极度受限的场景提供了可行方案,并引发了对注意力机制必要性的根本性思考。

  • Longformer 则通过引入精心设计的稀疏注意力模式——结合滑动窗口(局部)注意力、空洞滑动窗口注意力和任务驱动的全局注意力——在保持对长距离依赖捕获能力的同时,实现了计算复杂度的线性扩展。它为处理数千词元级别的长文档提供了切实可行的解决方案,并在多个长文本 NLP 基准上取得了优异性能。

这三种模型代表了通往效率的三条不同但均有价值的路径:Linear Attention 侧重于数学公式的革新,AFT 追求极致的简化,Longformer 则侧重于结构化的稀疏计算。

8.2. 对其影响及高效 NLP 未来的总结性思考#

Linear Attention、AFT 和 Longformer 的出现,极大地推动了自然语言处理及相关领域处理长序列的能力,使得以往因计算资源限制而难以处理的任务(如整本书籍的分析、长篇对话的理解、基因组序列的建模、资源受限设备上的实时推理)成为可能。它们不仅提升了模型的效率,也为更广泛、更实际的 AI 应用铺平了道路。

展望未来,对效率的追求仍将是驱动模型架构创新和能力边界拓展的核心动力。高效 Transformer 的研究不会止步于现有的方法。正如本报告所探讨的,混合架构、可学习的稀疏/线性化策略、更深度的硬件-软件协同设计以及超越传统注意力机制的新范式,都预示着一个持续演进、充满活力的领域。

虽然 Linear Attention、AFT 和 Longformer 提供了显著的进步,但它们是更大、快速发展的生态系统的一部分。最终的"高效 Transformer"可能并非单一的某种架构,而是一个包含多种技术和策略的工具箱,研究人员和工程师可以根据具体任务的需求、数据特性和硬件条件,灵活地选择和组合这些工具,以构建出在特定场景下最优的解决方案。

未来趋势不再是“一种架构统治天下”,而是​​“专模专用”​​。就像计算机有 CPU、GPU、TPU 一样,未来也会有擅长长文本理解的 Longformer、擅长高效生成的 Linear Attention 模型、擅长边缘部署的 AFT 模型等。高效 Transformer 的研究正在为我们提供这个丰富的​​模型工具箱​​。例如,当我们需要处理法律文书或医学报告等长文档时,Longformer 是首选;当我们需要极高吞吐量的自回归生成任务时,Linear Attention 展现出巨大优势;而在资源受限的边缘设备上部署模型时,AFT 的设计哲学则提供了宝贵的参考。

9. 参考与引用#

!!!!!!!! 去掉括号和中文

  1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30. (提出了 Transformer 架构)

  2. Katharopoulos, A., Vyas, A., Pappas, N., & Fleuret, F. (2020). Transformers are RNNs: Fast autoregressive transformers with linear attention. In International Conference on Machine Learning(pp. 5156-5165). PMLR.(将 Transformer 重新表述为循环神经网络 RNN,并提出了线性注意力机制)

  3. Beltagy, I., Peters, M. E., & Cohan, A. (2020). Longformer: The long-document transformer. arXiv preprint arXiv:2004.05150. (提出了 Longformer 模型,通过结合局部滑动窗口注意力和任务驱动的全局注意力,以线性复杂度高效处理长文档)

  4. Zaheer, M., Guruganesh, G., Dubey, K. A., Ainslie, J., Alberti, C., Ontanon, S., ... & Ahmed, A. (2020). Big bird: Transformers for longer sequences. Advances in Neural Information Processing Systems, 33, 17283-17297. (提出 BigBird 模型,通过使用稀疏注意力机制(包括全局、局部和随机注意力)来有效地处理更长的序列)

  5. Choromanski, K., Likhosherstov, V., Dohan, D., Song, X., Gane, A., Sarlos, T., ... & Weller, A. (2020). Rethinking attention with performers. arXiv preprint arXiv:2009.14794.(提出了 Performer 模型,使用快速注意力 Via 正交随机特征(FAVOR+)方法,以线性复杂度近似标准注意力机制))

  6. Kitaev, N., Kaiser, Ł., & Levskaya, A. (2020). Reformer: The efficient transformer. arXiv preprint arXiv:2001.04451. (提出了 Reformer 模型,结合局部敏感哈希(LSH)注意力和可逆残差层,大幅降低了长序列处理的内存消耗)

  7. Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). Generating long sequences with sparse transformers. arXiv preprint arXiv:1904.10509.(提出了 Sparse Transformer 模型,通过因子化的稀疏注意力模式来生成更长的序列)

  8. Dao, T., Fu, D., Ermon, S., Rudra, A., & Ré, C. (2022). FlashAttention: Fast and memory-efficient exact attention with IO-awareness. Advances in Neural Information Processing Systems, 35, 16344-16359.(提出了 FlashAttention,一种具有 IO 感知能力的快速且内存高效的精确实现注意力算法,通过优化 GPU 内存读写来加速计算)

  9. Gu, A., & Dao, T. (2023). Mamba: Linear-time sequence modeling with selective state spaces. arXiv preprint arXiv:2312.00752. (提出了 Mamba 模型,基于状态空间模型 SSM 并引入了选择性机制,实现了高效的线性时间序列建模)

  10. Zhai, S., Talbott, W., Srivastava, N., Huang, C., Goh, H., Zhang, R., & Susskind, J. (2021). An attention free transformer. arXiv preprint arXiv:2105.14103.(提出了无注意力 Transformer AFT,用一种高效的、基于加权平均的特征交互机制完全替代了自注意力机制)