首页  >  媒体中心
谷歌、康奈尔新研究:大模型的下一步,是学会“好好睡觉”
2026-06-03

68.png

大语言模型(LLM)在完成部署后,通常便进入一种近乎“冻结”的状态。它能够执行预训练阶段已经掌握的任务,却很难像人类一样持续吸收新知识。这带来了一个长期存在的矛盾:

停止学习,知识会逐渐过时;持续微调参数,又容易引发“灾难性遗忘”,即模型在学习新能力时,原有能力也会被一并削弱甚至覆盖。然而,重新进行大规模预训练,无论是算力消耗还是工程成本,都异常高昂。

尽管上下文学习(In-Context Learning,ICL)提供了一种更轻量的适应方式,但它本质上仍受限于上下文窗口:会话结束后,模型“记住”的内容也随之消失。这种现象与人类的顺行性遗忘(anterograde amnesia)有些相似。人类患者能够保留久远的旧记忆,却无法形成新的长期记忆,对他们而言,每一个当下都像第一次经历。当前基于 Transformer 的 LLM,也表现出类似特征:知识要么被固化在预训练参数中,要么短暂存在于当前上下文激活里,二者之间始终缺少稳定的连接机制。

为解决这一问题,来自谷歌和康奈尔大学的研究团队提出了 Sleep 范式。这是一套受人类睡眠机制启发的持续学习框架,试图让模型在不破坏既有能力的前提下,逐步沉淀和整合新知识。

111.png

论文链接:https://arxiv.org/pdf/2606.03979

据论文描述,Sleep 由两个阶段构成:记忆巩固(类比人类的慢波睡眠 NREM)和做梦(类比快速眼动睡眠 REM)。

实验结果显示,在长上下文理解、知识整合、少样本推理以及持续学习等任务中,Sleep 范式均能带来持续的性能提升。


Sleep范式:重新定义LLM持续学习


Sleep 范式的出发点是对持续学习生命周期的重新定义。在传统机器学习框架中,模型的生命周期被切分为训练时间和测试时间两个明确阶段。而在持续学习场景下,这一边界并不存在,模型始终处于学习状态,只是学习的方式在两种模态之间交替:

·Active(觉醒)阶段:模型接收外部输入,执行推理或上下文学习,知识以短期、高频更新的方式暂存于 Attention 模块和高频 MLP 层中。

·Sleep(睡眠)阶段:模型不再接受新的外部数据,转而专注于对内部知识的巩固与自我改进。Sleep 并非被动的闲置,而是一个高度动态的计算过程。

研究团队将 Sleep 过程进一步拆解为两个子阶段,分别对应人类大脑中慢波睡眠和 REM 睡眠承担的不同功能。

222.png

图|传统机器学习(训练/测试分离)vs. 持续学习(Wake 与 Sleep 交替)示意图

1.记忆巩固:参数扩展与 Knowledge Seeding

记忆巩固阶段的核心目标,是将存储在高频(快速更新)模块中的短期脆弱记忆,转移到更稳定的低频参数中,同时避免两类知识相互干扰。

为什么直接迁移会导致遗忘?灾难性遗忘的根本原因之一是参数容量有限,新知识的写入必然覆盖旧知识。受人类大脑神经可塑性的启发,研究团队提出了渐进式参数扩展机制:

在每次 Sleep 步骤中,向接收知识的低频 MLP 块(以 MoE 结构表示)新增一个低秩专家模块(由两个低维矩阵参数化),专门用于存储即将迁移过来的新知识。已有专家的参数在此过程中完全冻结,确保旧知识不受扰动。

Sleep 结束后,高频块中此前添加的低秩参数会被重置清空,释放容量供未来使用。这一步骤与人脑中的突触修剪(synaptic pruning)高度类比,大脑在巩固记忆后,会主动删除冗余连接以提升效率。

333.png

图|记忆巩固整体流程

在参数扩展完成后,记忆迁移本身通过 Knowledge Seeding(上行蒸馏)来实现。与常规知识蒸馏方向相反,Knowledge Seeding 是从较小的“教师”模型(当前高频模块的状态)向参数量更大的“学生”模型(扩展后的低频模块)进行蒸馏。

这一设计面临两个特殊挑战:其一,学生的表达能力强于教师,直接在教师生成数据上训练会导致学生参数的次优利用;其二,Sleep 阶段原则上无法访问外部数据集,主流蒸馏方法的依赖假设不成立。

为此,研究团队在广义知识蒸馏(GKD)框架的基础上,引入了基于强化学习的模仿学习过程 Learning to Imitate(LTI)。整个 Knowledge Seeding 目标由两部分构成:首先,在策略蒸馏(on-policy distillation),学生在自己生成的序列上接受教师 logit 的 token 级反馈,确保知识的直接传递;其次,LTI 过程,教师先生成一批合成文本(“梦境数据”),随机截取前缀后让学生续写,再根据学生输出与教师原文的语义相似度(由冻结的奖励模型评分)和编辑距离(Levenshtein 距离)的加权组合计算奖励。

LTI 的作用在于:光有知识还不够,学生还需要学会如何像教师一样使用这些知识。

2.做梦:RL驱动的自我改进

记忆巩固完成后,Sleep 进入第二阶段 Dreaming,对应人类 REM 睡眠中大脑活跃合成新连接的过程。此阶段的目标是通过模型自我生成的合成数据,在不引入人工标注的情况下递归地提升自身能力。

合成数据如何生成?给定一个采样任务(包含上下文 C 和评估指标 τ),模型在 MoE 路由时额外随机选择一个专家参与计算,这一设计刻意引入了无关知识的干扰,目的是模拟梦境中记忆的创造性混合,让模型探索平时不会激活的知识组合。由此产生 m 个候选“梦境”样本。

如何筛选有价值的梦境?研究团队引入梯度 based 重要性评分:对每个梦境样本计算语言建模目标关于当前参数的梯度范数,作为该样本对模型能力改进潜力的代理指标。得分最高的 Top-k 样本加上若干随机样本(保持多样性)组成最终训练集。对于入选的每个梦境,实验以 LoRA 方式在独立的模型实例上进行监督微调;若微调后模型在下游任务上的表现有所提升,则对应梦境获得正向奖励,整个生成过程通过 ReSTEM 算法进行优化。相比 SEAL 的原始设计,研究团队在采样策略(随机专家路由)和样本筛选(梯度 based 评分)两个环节做了针对性改进,以控制迭代自训练引发灾难性遗忘的风险。


实验结果


在实证评估中,研究团队系统分析了 Sleep 范式各阶段的独立贡献,以及多阶段协同带来的整体收益。具体结果如下:

在类别增量学习任务中,研究团队基于 CLINC、Banking、DBpedia 三个意图分类数据集,以 Llama-3B 与 Llama3-8B 为骨干模型,对比了 ICL(无 Sleep)、弹性权重巩固(EWC)、外部持续学习器(InCA),以及不含显式蒸馏机制的 Hope 基线。

结果显示,引入 Sleep 的 Hope 在三个数据集上均取得最高准确率。相较于仅依赖提示级适应的 ICL,Sleep 能够将上下文中的临时适应能力转化为持久化参数记忆;相较于不含显式蒸馏的 Hope,加入自蒸馏机制后,模型提炼出的知识抽象质量进一步提升。

在记忆层级对 ICL 的影响实验中,研究团队基于 MK-NIAH(来自 RULER)、LongHealth 和 QASPER 三个长上下文 Benchmark,系统考察了 Hope 中 Sleep 阶段数量,即记忆层级深度,对模型性能的影响,并与 ICL、DuoAttention、Cartridges 等方法进行对比。

实验结果呈现出两条一致规律:随着巩固阶段数量增加,模型在长上下文任务上的表现持续提升;与此同时,当最低频记忆模块的更新频率被提高、使其具备更强适应性后,整体性能反而下降。这表明,持久记忆的稳定性是其核心价值来源。整体来看,Hope 在三个任务上均优于 DuoAttention 与 Cartridges。

在顺序习得两门新语言实验中,研究团队基于 MTOB 与 Manchu 两个低资源翻译数据集,让模型依次学习两门在预训练阶段从未见过的新语言,并在最终阶段同时评估两种语言能力。

结果显示,标准 ICL 在学习第二门语言后,对第一门语言的翻译能力出现明显崩塌,几乎退化回预训练基线;而 Hope-3(三级 Sleep)则保留了绝大多数已习得能力,其连续学习后的 ChRF 得分接近单语言独立训练水平。相比之下,Cartridges 与监督微调(SFT)在至少一门语言上同样出现灾难性遗忘,因此未进入论文主图的有效结果区间。

在 BABILong 超长上下文推理任务中,面对最长可达 10M token 的 Benchmark,Hope 取得了接近满分的表现。相比之下,GPT-4 与 GPT-4o-mini 在上下文长度超过 128K 至 256K token 后性能迅速下降;Llama-8B + RAG 同样随着上下文增长而明显退化;Titans 与 ARMT 等同类小模型则在超过 1M token 后出现显著性能劣化。

在数学推理任务中,研究团队以 Qwen3-1.7B 与 Qwen3-8B 为基础模型,在 AIME-24、AIME-25、HMMT-25 三个数学竞赛 Benchmark 上,对比了 SFT 与 GRPO 等训练方法。结果显示,Sleep 在 Qwen3-8B 上的 AIME-24 得分达到 79.2,超过 OPSD 的 76.6 与 GRPO 的 76.4;在 Qwen3-1.7B 上同样取得 53.2 的成绩,高于 GRPO 的 51.0。

444.png

在知识融合实验中,研究团队基于 SQuAD 数据集,评估模型在无上下文问答条件下,将新知识内化进参数的能力。在单段落设置(n=1)下,Sleep(四级记忆)达到 48.9;在持续预训练设置(n=200,对应 974 个相关问题)下达到 46.2,均优于 SEAL 的 46.7 与 43.2。进一步的消融实验表明,移除 Dreaming 阶段后,单段落场景下的准确率从 48.1 大幅下降至 35.7,说明自我改进阶段对于知识内化具有关键作用。

555.png

在少样本抽象推理实验中,研究团队以 Llama-3.2-1B 为骨干模型,在筛选后的 11 个训练任务与 8 个保留任务上进行评估。最终,Sleep 的成功率达到 80%,显著高于 SEAL 的 72.5%、TTT(仅进行合成更新、无 Dreaming)的 10%,以及 ICL 的 0%。

666.png


不足与未来方向


当然,这项研究依然存在一些局限性。

首先是在效率层面。根据论文描述,在相同步数条件下,SFT 的运行速度约为 Sleep 的 4 倍;但若以达到相同性能为目标,情况则出现反转,SFT 需要额外消耗约 3.6 至 4.8 倍的实际墙钟时间才能追平 Sleep。即便如此,Sleep 的整体计算开销仍显著高于标准对照方法,因此在强调快速迭代与低成本部署的场景中,实际应用仍面临一定限制。

其次,研究团队也指出,迭代式自训练若控制不当,本身可能诱发灾难性遗忘。这也是 Dreaming 阶段引入基于梯度的样本筛选机制,以及随机专家路由策略的重要原因。不过,该机制在长期循环中的稳定性仍缺乏系统验证。例如,在经历数十轮 Sleep 后,模型是否依旧能够稳定抑制遗忘、维持知识结构一致性,论文尚未给出充分实验结果。

与此同时,当前方案对 MoE 架构存在较强依赖。参数扩展、记忆隔离以及多层级更新频率控制等设计,都建立在稀疏混合专家结构之上。对于不支持专家路由的传统稠密模型,Sleep 如何完成等价适配,论文并未展开深入讨论。

更重要的是,Sleep 范式实际上指向了一个更宏观的问题:LLM 的生命周期,或许不应在预训练结束时终止。

人类大脑会在睡眠过程中持续进行记忆重构,将零散的短期经验逐步沉淀为稳定、层次化的长期知识;而 Sleep 所尝试的,正是将这一机制迁移到模型参数体系中,为 LLM 提供一种无需依赖额外人工标注、同时尽可能避免能力破坏的持续学习路径。

随着参数容量管理、蒸馏稳定性、多频率记忆调度等关键问题进一步推进,具备周期性自我整合能力的模型,或许会成为下一代长生命周期 AI 系统的重要基础组件。




原标题:谷歌、康奈尔新研究:大模型的下一步,是学会“好好睡觉”

本文转载于微信公众号:学术头条(ID:SciTouTiao),转载引用请注明原出处

该文观点仅代表作者本人,平台仅提供信息存储空间服务。
参与评论
评论千万条,友善第一条
0
/800
验证码: