Unlimited OCR Works——无限OCR:开启单次长时程解析时代
1. 研究背景与问题现状痛点现有端到端OCR模型如DeepSeek OCR虽借助大语言模型LLM提升识别精度但解码时KV缓存随输出长度线性增长导致内存消耗激增、生成速度逐渐下降。人类启发人类抄写时仅关注附近上下文实现“软遗忘”而非完整保留历史信息模型应模仿这种机制。2. 核心创新参考滑动窗口注意力R-SWA注意力机制每个生成令牌始终关注所有参考令牌图像视觉令牌和提示词确保视觉保真度对已生成的输出令牌仅关注前 n 个默认128的滑动窗口窗口外历史信息被“遗忘”。KV缓存管理标准MHA缓存大小 前缀长度 生成长度线性增长R-SWA缓存大小 前缀长度 min(n, 生成长度)上限为常数前缀长度 n实现内存恒定。计算效率解码阶段Flash Attention内核延迟和GPU内存占用均保持恒定不随输出增长。3. 模型架构与训练基线基于DeepSeek OCR保留其高压缩率编码器DeepEncoder16倍令牌压缩替换解码器所有注意力层为R-SWA。解码器MoE架构总参数量3B激活参数量500M。训练数据约200万样本单页多页9:1多页数据通过拼接合成最多50页序列长度打包至32K。训练策略冻结编码器仅训练LLM参数使用AdamW、余弦退火在8×16 A800 GPU上训练4000步。4. 实验评估结果标准基准OmniDocBench v1.5/v1.6Unlimited OCR总体得分达93%比DeepSeek OCR基线提升6%在9类文档子类别如PPT、报纸、学术论文上几乎所有指标文本编辑距离、阅读顺序等均优于DeepSeek OCR系列。长时程解析能力可单次解析20页文档40页时编辑距离仍低于0.11Distinct-35达97%错误主要源于小字体难以辨认而非R-SWA机制本身。推理效率输出长度达6000令牌时Unlimited OCR的TPS每秒令牌数比DeepSeek OCR高35%速度优势随输出增长愈发明显短文档时两者持平。5. 效率分析与对比理论TPS上限对比显示输出越长Unlimited OCR优势越大如6144令牌时TPS达7847而基线仅5822。恒定KV缓存和稳定计算成本是支撑长时程解析的关键。6. 局限性与未来方向当前局限仍受最大上下文长度32K限制无法真正“无限”解析多页时预填充阶段仍会很长。短期计划训练128K更长上下文的模型长期愿景构建“预填充池”模型可动态获取历史KV块模拟人类翻页实现真正无限解析扩展应用R-SWA可迁移至语音识别ASR、翻译等其他基于参考的长时程任务。7. 结论将解码器标准注意力替换为R-SWA后模型性能无损甚至提升表明“软遗忘”窗口机制有效且符合人类认知习惯。R-SWA使注意力计算和内存占用不再成为长时程解析的瓶颈为OCR、ASR、翻译等任务提供了通用的高效解码方案。论文提出R-SWA注意力机制通过恒定KV缓存和滑动窗口实现单次解析数十页文档在保持甚至提升OCR精度的同时大幅提高长时程推理效率。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示项目地址在这里如下所示图 1 | 参考滑动窗口注意力R-SWA示意图。每个生成的令牌都会关注所有参考令牌OCR 中的视觉令牌以及前 nn 个输出令牌默认为 128。与标准的全注意力相比R-SWA 在整个解码过程中保持 KV 缓存大小不变。与普通的滑动窗口注意力SWA相比它通过将视觉令牌排除在状态转移之外来保持其保真度从而避免了渐进式模糊。摘要近来以 DeepSeek OCR 为代表端到端 OCR 模型再次将 OCR 技术推向了聚光灯下。一种广泛持有的观点是采用大语言模型LLM作为解码器使得模型能够利用语言的先验分布从而提升 OCR 性能。然而其缺点也同样明显随着输出序列变长累积的 KV 缓存会推高内存消耗并逐渐减慢生成速度。这与人类在长时程抄写任务中效率不会下降的表现形成了鲜明对比。在本技术报告中我们提出了 Unlimited OCR一个旨在模拟人类解析工作记忆的模型。以 DeepSeek OCR 为基线我们将解码器中的所有注意力层替换为我们提出的参考滑动窗口注意力R-SWA该机制在降低注意力计算成本的同时在整个解码过程中维持恒定的 KV 缓存大小。通过将 DeepSeek OCR 编码器的高压缩率与我们恒定的 KV 缓存设计相结合Unlimited OCR 能够在标准最大长度 32K 下单次前向传播即可转录数十页文档。更重要的是R-SWA 是一种通用的解析注意力机制——除 OCR 之外它同样适用于诸如语音识别ASR、翻译等任务。1. 引言人类在看似简单的长时程任务上表现得非常出色抄写数百页的书籍、翻译数小时的音频录音等等。然而这些恰恰是当前模型难以胜任的任务。以 OCR 为例现有的模型 [10 30, 33 34] 甚至无法在单次前向传播中解析十页文档。相反它们采用循环方式逐页处理每一步都重置记忆。这种差异远非表面现象也不能简单归结为缺乏足够的上下文。当人类执行此类任务时他们会保持一种连续的认知状态其中较远的输出会从记忆中逐渐淡出而附近的上下文则用于跟踪进度。相比之下循环范式在每一页都完全擦除记忆将一个连贯的长时程过程分割成由外部调度程序管理的孤立短任务。这种方法在某种程度上可行但它仍然是一种工程上的权宜之计而非迈向通用人工智能AGI式智能的一步。试想抄写一份文档的行为。当我们抄写每个字符时并不会重新扫描所有已写好的文本我们只是瞥一眼紧邻的上下文来保持方向感。这种日常行为指向了一种与当前模型根本不同的注意力模式。它不是标准的全注意力——完整的历史从未被完全查阅。它也不类似于线性注意力因为视觉/参考令牌不经历循环状态更新这种更新会逐渐模糊视觉特征并降低识别精度。为了更贴近这种自然的注意力流并探索多模态大语言模型MLLMs[8 14, 22 28] 如何处理简单的长时程解析任务我们提出了 Unlimited OCR。我们的主要贡献如下我们提出了参考滑动窗口注意力R-SWA如图 1 所示。对于每个令牌R-SWA 关注所有参考令牌视觉令牌和提示词同时将输出注意力限制在前 nn 个令牌nn 默认为 128。通过这种方式每个令牌都能感知完整的图像并通过因果滑动窗口内的状态转移自主跟踪 OCR 进度。这种设计使得推理过程中的 KV 缓存保持不变从而减轻了内存压力并降低了计算成本。在 R-SWA 的基础上我们提出了 Unlimited OCR。以 DeepSeek OCR 为基线我们保留了其具有高图像压缩率的 DeepEncoder并将解码器 LLM 的所有注意力机制修改为 R-SWA。这使得 Unlimited OCR 能够在单次前向传播中解析数十页纸张。R-SWA 也带来了通用 OCR 精度上的适度提升。具体而言Unlimited OCR 在 OmniDocBench v1.5 基准测试 [23] 上达到了 93% 的准确率比 DeepSeek OCR 基线高出 6%。我们对具有线性复杂度注意力的 MLLM 架构在 OCR 任务上特别是在长时程场景中进行了初步验证。我们没有蛮力扩展训练上下文而是找到了一种实现长时程 OCR 的优雅方法。展望未来我们看到了将 R-SWA 扩展到语音识别ASR、翻译和其他需要长时程依赖建模的基于参考的任务的潜力。总之我们提出了 R-SWA它显著降低了长时程推理中注意力的计算成本和内存占用。在 R-SWA 基础上构建的 Unlimited OCR不仅能够实现整本书的单次解析还在流行的文档解析基准测试上大幅超越了 DeepSeek OCR 基线。此外我们相信 R-SWA 的潜力远不止于 OCR。2. 相关工作2.1. 基于流水线Pipeline的框架传统的 OCR 模型特别是那些为文档解析设计的模型通常采用流水线架构 [10 11, 13 17, 30]一个检测模型首先识别不同类型的文档元素随后由多个识别算子进一步解析这些区块内的内容。这些组件通常通过各种启发式策略如裁剪、校正等连接起来。近年来随着大语言模型LLMs强大的解码器能力的出现基于流水线的 OCR 范式持续演进 [17]。最直接的适配保留了检测模型同时将多个识别模型整合为一个统一模型——这是一种将成熟的传统检测算法与 LLM 的高级解码器相结合的实用混合体。除此之外还有另一种流水线变体它两次调用 LLM甚至用同一个 LLM 替换检测模型 [13]使得整个 OCR 工作流程变为LLM 检测 - 裁剪策略 - LLM 识别。得益于 OCR 任务分解方式的内在灵活性流水线架构至今仍被广泛采用。2.2. 端到端模型随着视觉-语言模型VLMs[6 8, 14 16, 32] 的进步端到端 OCR特别是密集型 OCR 模型 [9 24, 26 33-35] 正在兴起。这种方法通过将文本检测和识别融合到一个统一的函数中充分利用了 LLM 强大的解码器能力使得单次前向传播即可解析整个页面的内容。与流水线方法相比端到端算法对模型容量提出了更高要求也带来了更大的训练挑战。这反过来又使得对端到端 OCR 模型的研究更具吸引力架构设计的创新和训练方法的迭代改进可以更直接地启发甚至推动通用 VLM 的发展。2.2.1. 高压缩率编码器在端到端模型中编码器是提取和压缩图像信息不可或缺的模块。编码器在一定程度上决定了模型的上限以生成效率为例如果输入的视觉令牌过长——意味着编码器的令牌压缩率不足——模型的解码效率将因过长的前缀令牌而受到阻碍从而影响解码速度。有效解码长度亦是如此。DeepEncoder [34] 通过级联窗口注意力的 ViT [15] 和全局注意力的 ViT [25]在低激活值下实现了 16 倍的令牌压缩率使其成为多页长时程 OCR 的理想选择。2.2.2. 高效率解码器对推理成本影响最直接的是解码器包括 LLM 的激活值和 KV 缓存大小。关于前者当前的端到端 OCR 模型参数规模通常在 30 亿以下。与此相关DeepSeek OCR [34] 使用了混合专家MoE架构 [18]推理时激活参数仅为 5 亿。至于 KV 缓存当前模型都会随着解码上下文的增长而不断增加这限制了生成速度和长度。这正是我们的 Unlimited OCR 旨在解决的关键问题。图 2 | 受人类抄书过程的启发我们提出了 Unlimited OCR。该模型采用统一的端到端架构由一个编码器和一个 MoE-LLM 解码器组成其中所有注意力机制均为 R-SWA。KV 缓存实现为一个容量为 mn 的队列每次生成新令牌时队列中第 (m1) 个令牌对应的 KV 对被驱逐确保在生成过程中计算成本和内存使用不会逐步增加。3. 方法论3.1. 长时程解析我们人类擅长长时程解析任务——持续转录整本书、一口气翻译数百页、或连续转录数小时的音频而不中断。这种持续解析的能力似乎与工作记忆密切相关。如图 2 所示当一个人手工抄写一本书时他们的注意力通常集中在三个点上原始源书、刚刚写下的一小部分内容通常只有几个字符以及即将要写的下一个字符。他们不会保留所有已抄写内容的完整记忆而是进行一种形式的软遗忘。这或许是在低认知负荷下维持长时程解析的关键。受此观察启发我们提出了 Unlimited OCR。3.2. 架构如图 2 所示Unlimited OCR 以 DeepSeek OCR 为基线。具体来说它由 DeepEncoder 和一个混合专家MoE架构组成该架构总参数量为 30 亿激活参数量为 5 亿。DeepEncoder 以其卓越的视觉令牌压缩能力脱颖而出能够在前填充prefill阶段显著减少 KV 缓存占用同时保持鲁棒的光学文本特征提取能力。与原始 DeepSeek OCR 不同我们将普通的多头注意力MHA替换为我们提出的 R-SWA。借助这种新的注意力机制可以通过在原始参考 KV 缓存 mm 基础上增加一个宽度为 nn 的固定容量输出 KV 缓冲区来实现长时程解析。我们将在以下各节深入探讨技术细节。3.3. DeepEncoderDeepEncoder 最初在 DeepSeek OCR [34] 中提出。它级联了 SAM-ViT [15] 和 CLIP-ViT [25]并在桥接处应用了 16 倍 [32] 的令牌压缩使得前半部分完全依赖窗口注意力来处理原始图像令牌而全局注意力尽管 DeepEncoder 在输入端实现了令人满意的视觉令牌压缩但单次解析整本书的真正瓶颈在于解码阶段。假设视觉令牌与文本令牌的压缩比为 110——即一个视觉令牌可以解码大约十个文本令牌。在这种情况下1 万个视觉令牌大约相当于 1024×1024 分辨率下的 20-30 页需要 10 万 个令牌的输出长度才能完全解码。由于序列超过 128k 令牌所带来的巨大 KV 缓存存储和注意力计算量这一直是普通 LLM 驱动的 OCR 模型面临的巨大挑战。为了解决这个问题我们提出了参考滑动窗口注意力R-SWA。3.4. 参考滑动窗口注意力尽管 DeepEncoder 在输入端实现了令人满意的视觉令牌压缩但单次解析整本书的真正瓶颈在于解码阶段。假设视觉令牌与文本令牌的压缩比为 110——即一个视觉令牌可以解码大约十个文本令牌。在这种情况下1 万个视觉令牌大约相当于 1024×1024 分辨率下的 20-30 页需要 10 万 个令牌的输出长度才能完全解码。由于序列超过 128k 令牌所带来的巨大 KV 缓存存储和注意力计算量这一直是普通 LLM 驱动的 OCR 模型面临的巨大挑战。为了解决这个问题我们提出了参考滑动窗口注意力R-SWA。3.4.1. 注意力计算本质上R-SWA 将注意力限制在一个大小为 mn 的两段式窗口内如图 2 所示。这里mm 表示前缀令牌的窗口包括视觉令牌和提示词。在单次推理过程中mm 保持不变它仅取决于待解码文档的页数或分辨率大小并且不随解码长度变化。解码区域的窗口 nn 大小也是固定的并以因果方式滑动。具体公式如下这个公式明确表明每个解码令牌可以关注所有前缀令牌作为持久的全局上下文而仅局部关注先前生成令牌的一个有界因果窗口内。因此该模型在保持对完整前缀信息访问的同时降低了在增长解码序列上的注意力成本。3.4.2. KV 缓存管理对于 DeepSeek OCR 基线它采用标准的多头注意力MHA——这是最经典的注意力形式具有强大的表达能力但带来了巨大的 KV 缓存压力其 KV 缓存大小计算如下3.4.3. 内核研究如图 3 所示我们绘制了 DeepSeek OCR 基线和 Unlimited OCR图中记为 UOW的 Flash Attention v3 内核单次调用耗时。该图清晰地表明DeepSeek OCR 中的标准 MHA 内核随着每个解码步骤的增加而产生增长的延迟而在 Unlimited OCR 中持续时间保持不变——这是将 R-SWA 应用于 LLM 解码器所有层的直接好处。DeepSeek OCR 中的峰值出现在 KV 缓存长度跨越某个对齐边界时导致数据传输效率突然下降而 R-SWA 不会出现此问题。此外推理期间的 GPU 内存使用情况也呈现相同模式在原始 DeepSeek OCR 中它与序列长度呈线性增长而在 Unlimited OCR 中则保持固定。计算成本和内存占用的这种联合稳定性正是使长时程解析成为可能的关键所在。图 3 | 随解码长度增加的 Flash Attention v3 内核延迟。推理期间的 GPU 内存使用情况也呈现相同模式在原始 DeepSeek OCR 中它与序列长度呈线性增长而在 Unlimited OCR 中则保持固定。计算成本和内存占用的这种联合稳定性正是使长时程解析成为可能的关键所在。4. 实验设置4.1. 数据引擎我们构建了大约 200 万个文档 OCR 数据样本来训练 Unlimited OCR其中单页与多页数据的比例为 91。对于单页 PDF 数据我们使用 Paddle OCR [11] 进行标注连接每个区块的坐标和内容以构建端到端的检测和解析真实值ground truth。每个元素的坐标归一化到 0-1000 的范围内。所有多页数据都是通过拼接单页数据合成的。我们随机生成了约 20 万个样本每个样本包含 2 到 50 页使用page作为页面间的分隔符。所有数据被打包成 32K 令牌的序列长度。4.2. 实现细节从 DeepSeek OCR 检查点 [34] 开始我们在 8×16 张 A800 GPU 上使用全局批次大小 256 和最大序列长度 32K继续训练 Unlimited OCR 共 4000 步并对所有数据进行随机打包。训练期间我们冻结 DeepEncoder仅训练 LLM 参数因为 DeepEncoder 在 DeepSeek OCR 中已经得到了充分优化。我们使用 AdamW [21] 优化器和余弦退火调度器 [20]初始学习率为 1e-4。为了支持 32K 训练我们采用了 DeepEP [18]并将专家并行EP设置为 4。整个训练流程基于 Megatron-LM [27] 框架构建。对于推理我们在 Transformers 库中实现了 R-SWA 的 KV 缓存管理并在 SGLang 推理引擎中提供了相应的支持和优化。这两个推理框架都能在恒定的 TPS令牌数/秒和 GPU 内存下运行 Unlimited OCR。5. 评估5.1. 基准测试与指标我们选择 OmniDocBench [23] 作为评估基础文档 OCR 能力的主要基准并在 v1.5 和 v1.6 版本上测试 Unlimited OCR。OmniDocBench v1.6 比 v1.5 多包含 296 张测试图像是最新的基准版本而 v1.5 则提供了更多经典模型包括我们的基线 DeepSeek OCR的官方指标便于进行性能比较。对于长时程 OCR 评估我们构建了一个内部测试集选取了一些小说、文档和论文并按页数划分以评估 Unlimited OCR 的多页性能。具体来说我们选择了 2、5、10、20 和 40 页的书籍进行测试每个类别不少于十本书。OmniDocBench 旨在从多个维度评估文档解析能力包括文本识别、公式识别、表格结构提取和阅读顺序预测。它采用任务特定指标进行全面评估(1) 文本编辑距离Edit ↓衡量文本识别的字符级准确率(2) 公式 CDMCDM ↑评估数学公式识别的质量(3) 表格 TEDSTEDS ↑和表格 TEDS-STEDS-S ↑分别评估有无内容识别情况下的表格结构提取准确率(4) 阅读顺序编辑距离Edit ↓量化预测阅读序列的正确性。总分则作为文本、公式和表格识别任务的加权平均值计算。对于内部基准测试我们报告 Distinct-n 和编辑距离。Distinct-n 是生成文本中唯一 n-gram 数量与 n-gram 总数量的比率。表 1 | OmniDocBench (v1.5/v1.6) 上的比较。表中的所有模型均为基于端到端 VLM 的架构。v1.5 主要用于与经典端到端算法和基线 DeepSeek OCR 进行比较。v1.6 主要与当前的端到端 SOTA 模型进行比较。除了提出的 Unlimited OCR 外所有其他模型均选自 OmniDocBench 仓库。在 OmniDocBench 上Unlimited OCR 实现了 5580 TPS令牌/秒/512 并发而 DeepSeek OCR 在“Base”DeepEncoder 模式下为 4951 TPS代表了 12.7% 的速度提升。当然OmniDocBench 中的平均文档长度相对较短——输出长度越长Unlimited OCR 的优势就越明显。5.2. 主要结果如表 1 所示Unlimited OCR 仅在基于 DeepSeek OCR 的 200 万 PDF 文档特定数据上继续进行训练便实现了端到端的 SOTA最先进性能。这证明了 R-SWA 在解析任务上的有效性。首先与 DeepSeek OCR 中的标准注意力相比R-SWA 可能使模型更专注于密集 OCR 任务而全注意力随着输出长度的增加可能导致发散。另一方面R-SWA 下的页内内容状态转移既可行又稳健。具体而言在 OmniDocBench v1.5 上与 DeepSeek OCR 相比文本编辑距离下降了 0.035表格 TEDS 提升了 5.96%这表明历史信息被因果地、连续地馈送到滑动窗口中使得模型即使只看到少量令牌也能清晰地定位其 OCR 进度。在 OmniDocBench v1.6 基准测试上Unlimited OCR 再次取得了端到端的 SOTA 性能总体指标为 93.92%进一步证明了对于单页 PDF 级别的文档 OCR 任务将所有标准注意力完全替换为宽度为 128 的 R-SWA 既有效又无损。此外Unlimited OCR 继承了 DeepSeek OCR 的所有优势例如 MoE 架构仅激活 5 亿参数从而实现了非常高的推理效率。在 OmniDocBench 上Unlimited OCR 实现了 5580 TPS令牌/秒/512 并发而 DeepSeek OCR 在“Base”DeepEncoder 模式下为 4951 TPS代表了 12.7% 的速度提升。当然OmniDocBench 中的平均文档长度相对较短——输出长度越长Unlimited OCR 的优势就越明显。5.3. 子类别研究OmniDocBench (v1.5) 提供了 9 种文档类型进行子类别比较对于更系统、更全面地分析 R-SWA 至关重要。如表 2 所示与 DeepSeek OCR 相比Unlimited OCR 在每项指标上都显示出明显且一致的提升这表明我们解码器端的优化即 R-SWA提供了一种真正的“免费午餐”——无需妥协的改进。与 DeepSeek OCR 2 相比Unlimited OCR 也保持明显优势在九分之七的文本编辑距离和阅读顺序分数上均超过了 DeepSeek OCR 2。对于具有复杂布局的文档如 PPT、报纸、杂志和笔记Unlimited OCR 也未见劣势进一步证明在 LLM 解码器中使用 R-SWA 替换所有标准注意力对于解析任务是完整且合理的。表 2 | Unlimited OCR 与 DeepSeek-OCR 系列在九种文档类型上的详细子类别比较。R-order 表示阅读顺序。所有指标均为编辑距离数值越低越好。红色单元格表示 DeepSeek-OCR 或 DeepSeek-OCR 2 的对应指标优于 Unlimited OCR。5.4. 长时程解析长时程解析是 Unlimited OCR 的新颖能力之一。两个主要障碍阻碍了先前模型实现这一目标首先过长的输出序列很容易超出最大令牌限制其次输出延迟随序列长度增长导致解析数十页文档的 OCR 速度逐渐变慢。配备 R-SWA 的 Unlimited OCR 可以在单次前向传播中预填充数十到数百页文档并从第一页到最后一页持续解析。在整个过程中KV 缓存保持固定因此输出延迟保持不变——这使得长时程解析成为可能。如表 3 所示我们的模型在多页单次 OCR 场景中提供了令人满意的性能即使在同时输入 20 页的情况下也能保持强劲的结果。在 40 页时编辑距离保持在 0.11 以下同时 Distinct-35 达到 97%。我们检查了重复错误的情况发现大多数发生在 PDF 中的小字体文本难以辨认的情况下这主要是由于在多页条件下使用了 DeepEncoder 的“Base”模式1024x1024 分辨率而非 R-SWA 在长时程解析过程中失去方向。表 3 | 长时程 OCR 性能。我们测试了不同页数下的 distinct-n 和编辑距离。Distinct-n 越高越好。表 4 | 理论推理性能上限比较。我们比较了 DeepSeek OCR 和 Unlimited OCR 在不同输出长度下的 TPS 上限。6. 效率分析如表 4 所示我们比较了 Unlimited OCR 和 DeepSeek OCR 在理想并发条件下的每秒输出令牌数TPS。预填充长度固定为 10所有其他设置保持相同。结果显示在 256 个令牌时两个模型的推理速度几乎相同。然而随着输出长度的增长DeepSeek OCR 的 TPS 稳步下降在 6000 个令牌时它落后于集成了 R-SWA 的 Unlimited OCR 达 35%。这些发现进一步验证了 R-SWA 的有效性并强调了一致的生成速度是长时程 OCR 任务的关键要求。7. 局限性与未来工作我们的模型无法在有限的上下文长度例如 32K下实现真正的无限解析因为它也受到预填充长度的限制。尽管 DeepEncoder 已经实现了较高的图像令牌压缩率但随着页数的累积预填充仍会变得非常长。在短期内我们将训练具有更长上下文长度如 128K的模型以支持更多页面的预填充。从长远来看我们计划构建一个预填充池并让模型学习自动获取预填充的 KV 块从而模拟人类翻页的效果以实现真正无限的 OCR 工作。此外我们还将把 R-SWA 迁移到基于参考的任务如 ASR 和翻译。8. 结论在本技术报告中我们提出了 Unlimited OCR 模型并展示了 R-SWA 算法以支持其长时程解析能力。我们验证了当端到端模型解码器中的所有标准注意力被替换为因果参考式 SWA 时模型在解析任务上的性能无损。这表明模型学会了持续将历史输出中的有用信息传递到窗口中而这种软遗忘形式与我们人类抄写书籍时的行为是一致的。我们相信 R-SWA 未来将应用于更多任务使得注意力计算和内存占用不再是长时程解析领域的瓶颈。