谷歌、康奈尔新研究：大模型的下一步，是学会“好好睡觉”-新睡眠-数字睡眠生态创新平台

谷歌、康奈尔新研究：大模型的下一步，是学会“好好睡觉”

2026-06-03

大语言模型（LLM）在完成部署后，通常便进入一种近乎“冻结”的状态。它能够执行预训练阶段已经掌握的任务，却很难像人类一样持续吸收新知识。这带来了一个长期存在的矛盾：

停止学习，知识会逐渐过时；持续微调参数，又容易引发“灾难性遗忘”，即模型在学习新能力时，原有能力也会被一并削弱甚至覆盖。然而，重新进行大规模预训练，无论是算力消耗还是工程成本，都异常高昂。

尽管上下文学习（In-Context Learning，ICL）提供了一种更轻量的适应方式，但它本质上仍受限于上下文窗口：会话结束后，模型“记住”的内容也随之消失。这种现象与人类的顺行性遗忘（anterograde amnesia）有些相似。人类患者能够保留久远的旧记忆，却无法形成新的长期记忆，对他们而言，每一个当下都像第一次经历。当前基于 Transformer 的 LLM，也表现出类似特征：知识要么被固化在预训练参数中，要么短暂存在于当前上下文激活里，二者之间始终缺少稳定的连接机制。

为解决这一问题，来自谷歌和康奈尔大学的研究团队提出了 Sleep 范式。这是一套受人类睡眠机制启发的持续学习框架，试图让模型在不破坏既有能力的前提下，逐步沉淀和整合新知识。

论文链接：https://arxiv.org/pdf/2606.03979

据论文描述，Sleep 由两个阶段构成：记忆巩固（类比人类的慢波睡眠 NREM）和做梦（类比快速眼动睡眠 REM）。

实验结果显示，在长上下文理解、知识整合、少样本推理以及持续学习等任务中，Sleep 范式均能带来持续的性能提升。

Sleep范式：重新定义LLM持续学习

Sleep 范式的出发点是对持续学习生命周期的重新定义。在传统机器学习框架中，模型的生命周期被切分为训练时间和测试时间两个明确阶段。而在持续学习场景下，这一边界并不存在，模型始终处于学习状态，只是学习的方式在两种模态之间交替：

·Active（觉醒）阶段：模型接收外部输入，执行推理或上下文学习，知识以短期、高频更新的方式暂存于 Attention 模块和高频 MLP 层中。

·Sleep（睡眠）阶段：模型不再接受新的外部数据，转而专注于对内部知识的巩固与自我改进。Sleep 并非被动的闲置，而是一个高度动态的计算过程。

研究团队将 Sleep 过程进一步拆解为两个子阶段，分别对应人类大脑中慢波睡眠和 REM 睡眠承担的不同功能。

图｜传统机器学习（训练/测试分离）vs. 持续学习（Wake 与 Sleep 交替）示意图

1.记忆巩固：参数扩展与 Knowledge Seeding

记忆巩固阶段的核心目标，是将存储在高频（快速更新）模块中的短期脆弱记忆，转移到更稳定的低频参数中，同时避免两类知识相互干扰。

为什么直接迁移会导致遗忘？灾难性遗忘的根本原因之一是参数容量有限，新知识的写入必然覆盖旧知识。受人类大脑神经可塑性的启发，研究团队提出了渐进式参数扩展机制：

在每次 Sleep 步骤中，向接收知识的低频 MLP 块（以 MoE 结构表示）新增一个低秩专家模块（由两个低维矩阵参数化），专门用于存储即将迁移过来的新知识。已有专家的参数在此过程中完全冻结，确保旧知识不受扰动。

Sleep 结束后，高频块中此前添加的低秩参数会被重置清空，释放容量供未来使用。这一步骤与人脑中的突触修剪（synaptic pruning）高度类比，大脑在巩固记忆后，会主动删除冗余连接以提升效率。

图｜记忆巩固整体流程

在参数扩展完成后，记忆迁移本身通过 Knowledge Seeding（上行蒸馏）来实现。与常规知识蒸馏方向相反，Knowledge Seeding 是从较小的“教师”模型（当前高频模块的状态）向参数量更大的“学生”模型（扩展后的低频模块）进行蒸馏。

这一设计面临两个特殊挑战：其一，学生的表达能力强于教师，直接在教师生成数据上训练会导致学生参数的次优利用；其二，Sleep 阶段原则上无法访问外部数据集，主流蒸馏方法的依赖假设不成立。

为此，研究团队在广义知识蒸馏（GKD）框架的基础上，引入了基于强化学习的模仿学习过程 Learning to Imitate（LTI）。整个 Knowledge Seeding 目标由两部分构成：首先，在策略蒸馏（on-policy distillation），学生在自己生成的序列上接受教师 logit 的 token 级反馈，确保知识的直接传递；其次，LTI 过程，教师先生成一批合成文本（“梦境数据”），随机截取前缀后让学生续写，再根据学生输出与教师原文的语义相似度（由冻结的奖励模型评分）和编辑距离（Levenshtein 距离）的加权组合计算奖励。

LTI 的作用在于：光有知识还不够，学生还需要学会如何像教师一样使用这些知识。

2.做梦：RL驱动的自我改进

记忆巩固完成后，Sleep 进入第二阶段 Dreaming，对应人类 REM 睡眠中大脑活跃合成新连接的过程。此阶段的目标是通过模型自我生成的合成数据，在不引入人工标注的情况下递归地提升自身能力。

合成数据如何生成？给定一个采样任务（包含上下文 C 和评估指标 τ），模型在 MoE 路由时额外随机选择一个专家参与计算，这一设计刻意引入了无关知识的干扰，目的是模拟梦境中记忆的创造性混合，让模型探索平时不会激活的知识组合。由此产生 m 个候选“梦境”样本。

如何筛选有价值的梦境？研究团队引入梯度 based 重要性评分：对每个梦境样本计算语言建模目标关于当前参数的梯度范数，作为该样本对模型能力改进潜力的代理指标。得分最高的 Top-k 样本加上若干随机样本（保持多样性）组成最终训练集。对于入选的每个梦境，实验以 LoRA 方式在独立的模型实例上进行监督微调；若微调后模型在下游任务上的表现有所提升，则对应梦境获得正向奖励，整个生成过程通过 ReSTEM 算法进行优化。相比 SEAL 的原始设计，研究团队在采样策略（随机专家路由）和样本筛选（梯度 based 评分）两个环节做了针对性改进，以控制迭代自训练引发灾难性遗忘的风险。

实验结果

在实证评估中，研究团队系统分析了 Sleep 范式各阶段的独立贡献，以及多阶段协同带来的整体收益。具体结果如下：

在类别增量学习任务中，研究团队基于 CLINC、Banking、DBpedia 三个意图分类数据集，以 Llama-3B 与 Llama3-8B 为骨干模型，对比了 ICL（无 Sleep）、弹性权重巩固（EWC）、外部持续学习器（InCA），以及不含显式蒸馏机制的 Hope 基线。

结果显示，引入 Sleep 的 Hope 在三个数据集上均取得最高准确率。相较于仅依赖提示级适应的 ICL，Sleep 能够将上下文中的临时适应能力转化为持久化参数记忆；相较于不含显式蒸馏的 Hope，加入自蒸馏机制后，模型提炼出的知识抽象质量进一步提升。

在记忆层级对 ICL 的影响实验中，研究团队基于 MK-NIAH（来自 RULER）、LongHealth 和 QASPER 三个长上下文 Benchmark，系统考察了 Hope 中 Sleep 阶段数量，即记忆层级深度，对模型性能的影响，并与 ICL、DuoAttention、Cartridges 等方法进行对比。

实验结果呈现出两条一致规律：随着巩固阶段数量增加，模型在长上下文任务上的表现持续提升；与此同时，当最低频记忆模块的更新频率被提高、使其具备更强适应性后，整体性能反而下降。这表明，持久记忆的稳定性是其核心价值来源。整体来看，Hope 在三个任务上均优于 DuoAttention 与 Cartridges。

在顺序习得两门新语言实验中，研究团队基于 MTOB 与 Manchu 两个低资源翻译数据集，让模型依次学习两门在预训练阶段从未见过的新语言，并在最终阶段同时评估两种语言能力。

结果显示，标准 ICL 在学习第二门语言后，对第一门语言的翻译能力出现明显崩塌，几乎退化回预训练基线；而 Hope-3（三级 Sleep）则保留了绝大多数已习得能力，其连续学习后的 ChRF 得分接近单语言独立训练水平。相比之下，Cartridges 与监督微调（SFT）在至少一门语言上同样出现灾难性遗忘，因此未进入论文主图的有效结果区间。

在 BABILong 超长上下文推理任务中，面对最长可达 10M token 的 Benchmark，Hope 取得了接近满分的表现。相比之下，GPT-4 与 GPT-4o-mini 在上下文长度超过 128K 至 256K token 后性能迅速下降；Llama-8B + RAG 同样随着上下文增长而明显退化；Titans 与 ARMT 等同类小模型则在超过 1M token 后出现显著性能劣化。

在数学推理任务中，研究团队以 Qwen3-1.7B 与 Qwen3-8B 为基础模型，在 AIME-24、AIME-25、HMMT-25 三个数学竞赛 Benchmark 上，对比了 SFT 与 GRPO 等训练方法。结果显示，Sleep 在 Qwen3-8B 上的 AIME-24 得分达到 79.2，超过 OPSD 的 76.6 与 GRPO 的 76.4；在 Qwen3-1.7B 上同样取得 53.2 的成绩，高于 GRPO 的 51.0。

在知识融合实验中，研究团队基于 SQuAD 数据集，评估模型在无上下文问答条件下，将新知识内化进参数的能力。在单段落设置（n=1）下，Sleep（四级记忆）达到 48.9；在持续预训练设置（n=200，对应 974 个相关问题）下达到 46.2，均优于 SEAL 的 46.7 与 43.2。进一步的消融实验表明，移除 Dreaming 阶段后，单段落场景下的准确率从 48.1 大幅下降至 35.7，说明自我改进阶段对于知识内化具有关键作用。

在少样本抽象推理实验中，研究团队以 Llama-3.2-1B 为骨干模型，在筛选后的 11 个训练任务与 8 个保留任务上进行评估。最终，Sleep 的成功率达到 80%，显著高于 SEAL 的 72.5%、TTT（仅进行合成更新、无 Dreaming）的 10%，以及 ICL 的 0%。

不足与未来方向

当然，这项研究依然存在一些局限性。

首先是在效率层面。根据论文描述，在相同步数条件下，SFT 的运行速度约为 Sleep 的 4 倍；但若以达到相同性能为目标，情况则出现反转，SFT 需要额外消耗约 3.6 至 4.8 倍的实际墙钟时间才能追平 Sleep。即便如此，Sleep 的整体计算开销仍显著高于标准对照方法，因此在强调快速迭代与低成本部署的场景中，实际应用仍面临一定限制。

其次，研究团队也指出，迭代式自训练若控制不当，本身可能诱发灾难性遗忘。这也是 Dreaming 阶段引入基于梯度的样本筛选机制，以及随机专家路由策略的重要原因。不过，该机制在长期循环中的稳定性仍缺乏系统验证。例如，在经历数十轮 Sleep 后，模型是否依旧能够稳定抑制遗忘、维持知识结构一致性，论文尚未给出充分实验结果。

与此同时，当前方案对 MoE 架构存在较强依赖。参数扩展、记忆隔离以及多层级更新频率控制等设计，都建立在稀疏混合专家结构之上。对于不支持专家路由的传统稠密模型，Sleep 如何完成等价适配，论文并未展开深入讨论。

更重要的是，Sleep 范式实际上指向了一个更宏观的问题：LLM 的生命周期，或许不应在预训练结束时终止。

人类大脑会在睡眠过程中持续进行记忆重构，将零散的短期经验逐步沉淀为稳定、层次化的长期知识；而 Sleep 所尝试的，正是将这一机制迁移到模型参数体系中，为 LLM 提供一种无需依赖额外人工标注、同时尽可能避免能力破坏的持续学习路径。

随着参数容量管理、蒸馏稳定性、多频率记忆调度等关键问题进一步推进，具备周期性自我整合能力的模型，或许会成为下一代长生命周期 AI 系统的重要基础组件。

原标题：谷歌、康奈尔新研究：大模型的下一步，是学会“好好睡觉”

本文转载于微信公众号：学术头条（ID：SciTouTiao），转载引用请注明原出处

该文观点仅代表作者本人，平台仅提供信息存储空间服务。

中国睡眠研究会官方指导