鄂尔多斯做网站代理网站备案-内蒙古自治区网站建设公司-Seo优化

鄂尔多斯做网站,代理网站备案,淄博网站建设优化珍云,08影院 wordpress文章提出AI持续学习的新范式——在token空间中学习#xff0c;而非传统的权重更新。通过让AI写笔记更新上下文记忆来积累经验#xff0c;具有可解释性、可移植性和可控性等优势。作者介绍了睡眠时间计算和智能体自我管理记忆等解决方案#xff0c;并…文章提出AI持续学习的新范式——在token空间中学习而非传统的权重更新。通过让AI写笔记更新上下文记忆来积累经验具有可解释性、可移植性和可控性等优势。作者介绍了睡眠时间计算和智能体自我管理记忆等解决方案并指出未来可能是token空间和权重空间学习的结合为AI智能体的持续发展提供了新思路。我们在讨论AI进化时都聚焦在模型参数上从GPT-3的千亿级到GPT-4的万亿级好像默认了更大的模型就等于更强的智能。但如果关注Letta团队最新发布的这篇技术文档会看到完全不同的叙事走向让AI更智能的关键可以通过教会它在token空间里持续学习。简单点说就是让它通过写笔记更新上下文记忆来积累经验。这种方法就跟我们用日记、笔记来辅助记忆一样自然而且更灵活、更可控、更容易跨越不同的AI模型版本传递。以下为原文内容在Token空间中的持续学习LLM Agent中的持续学习问题最好从token空间学习的角度来理解对已学习上下文的更新而非权重更新应该成为LLM Agent从经验中学习的主要机制。AI 智能体与人类智能之间最大的差距在于学习能力。人类能够持续学习并随时间不断进步掌握新技能根据新事实更新信念并根据过去的错误调整行为。相比之下尽管大多数Agent拥有海量的世界知识却无法真正随时间变得更好。我们该如何创造能够持续学习的智能体传统上神经网络的持续学习概念一直等同于权重更新基于所有学习都以连接主义方式发生的假设。核心研究问题集中在灾难性遗忘新的权重更新导致意外的知识丢失以及何时、如何通过梯度下降进行权重更新。但这种传统框架与现代基于大语言模型的智能体现实存在脱节。今天的智能体不仅仅是模型权重还有上下文。决定智能体行为的有效程序不仅包括模型参数还包括系统提示词、检索的文档、工具定义以及累积的对话历史。同一个模型的两个实例如果给定不同的上下文就可以表现为具有不同知识、能力和个性的完全不同的智能体。这一认识为学习开辟了第二个维度可以更新调节模型行为的token我们称之为在token空间中学习。在Letta我们正在构建这样的未来在token空间中学习的记忆比模型权重本身更有价值Agent永久运行通过数万亿token的经验数据逐步丰富已学习的上下文并在多代模型之间无缝转移它们的记忆。权重空间学习的局限性持续学习随着新数据到来逐步更新神经网络权重自1980年代末以来一直被研究。然而尽管经过数十年的研究成果却不多生产环境中部署的现代大语言模型并不进行持续学习它们的权重在部署时就被冻结了。唯一值得注意的例外是Cursor的自动补全模型它使用在线强化学习根据用户反馈持续改进这种持续学习形式是在群体层面运行的为所有人改进模型但没有让个体智能体从自身经验中学习。此外它的范围局限于一个狭窄领域短代码补全不包括通用推理和行动。为什么权重空间的持续学习被证明如此困难首先使大语言模型训练如此成功的技术并不适用于持续学习场景。预训练、中期训练和后训练需要精心的数据整理以及仔细的人工监督和评估——这个过程在智能体每次需要学习新东西时都重复一遍是不可行的。还存在部署问题当你有数百万用户时从谁的数据中学习是为每个人训练单独的模型还是将每个人的私人经验混合到共享权重中冒着私人数据在不同用户间泄露的风险像LoRA这样的高效方法降低了微调的计算需求足以支持个性化的单用户模型但它们仍然是为离线场景和离线评估设计的无法支持持续的在线更新。像LoRA这样的微调方法也留下了更难回答的问题学习信号从哪里来如何权衡近期信息与旧知识以及如何预防、检测和评估过拟合、分布偏移和灾难性遗忘。持续上下文学习的假象如果大语言模型的权重在部署后不更新那么智能体如何从经验中学习大语言模型在线学习的主要机制是上下文学习当智能体与世界交互时它的推理、行动和观察被追加到上下文窗口中并作为新知识被利用。这种形式的持续学习是有效的但有明显的局限性有限的上下文上下文窗口是有限的前沿模型最多支持20万到100万token即使在宣称的上下文窗口内也会遭受推理能力下降的问题即上下文污染或上下文衰退。真正的持续学习应该在无限的时间范围内运行。仅追加结构追加原始经验是对学习的粗糙近似。当人类学习时我们不只是记录发生的所有事情的日志。我们创建记忆但也会随时间精炼、整合和压缩它们。仅追加的上下文完全没有捕捉到这些。然而尽管有这些局限性上下文学习具有基于权重的学习所缺乏的特性可解释性Token空间的记忆是人类可读的。你可以检查智能体学到了什么评估它是否正确并直接调试失败。相比之下权重更新是不透明的需要系统性的评估才能发现问题。可移植性Token空间的记忆是模型无关的。智能体的已学习上下文可以在不同智能体、模型提供商之间转移甚至跨越模型代际转移。基于权重的学习将你锁定在单个模型上如果你想升级到下一代前沿模型你会失去所有已学习的内容。可控性遗忘是简单的只需删除token即可。防止灾难性遗忘也更简单因为已学习的上下文可以像任何文本文件一样进行检查点保存和版本控制。你可以对比智能体记忆的差异回滚到先前状态或分支成多个版本。问题是我们能在克服这些局限性的同时保持这些优势吗我们能超越仅追加的上下文走向真正随时间精炼和整合已学习记忆的方式吗我们相信可以。智能体应该主动维护和精炼存储在token中的已学习记忆不应该仅仅是追加到上下文直到溢出。走向token空间的持续学习有理由相信token空间的持续学习是一个有前景的研究方向。上下文学习比它表面看起来更强大最近的研究假设transformer实际上学会了在其推理的前向传播过程中近似梯度下降这解释了transformer上下文学习的涌现能力。我们可以用token空间学习的术语来形式化持续学习问题。现代大语言模型智能体不仅是由模型权重θ定义还有C其中C是智能体的上下文窗口系统提示词、工具定义、对话历史以及其他调节智能体行为的token。持续学习问题呈现出随时间到来的一系列任务T₁, T₂, …, Tₙ其中时间范围n可能跨越数月或数年关键是跨越许多底层模型发布版本。这些任务是顺序的即智能体在Tᵢ₊₁的参数由Tᵢ决定。每个任务都有相关的数据分布Dᵢ以及给定智能体的某个损失函数L(θ, C, Dᵢ)。持续学习问题是在整个任务序列上最小化累积损失如何解决持续学习问题的设计空间相当丰富。传统的持续学习试图通过权重空间的更新来解决这个问题即更新θ这种方法的核心挑战是灾难性遗忘针对新任务的权重更新可能会破坏旧任务的性能。数十年的研究集中在这个问题的缓解措施上通过LoRA约束对θ的更新用KL散度项增强损失函数但没有一个被证明足够实用以允许在生产部署中进行权重空间的持续学习。还有第二个问题稀疏的学习信号。现代权重更新方法通常依赖强化学习其中反馈是每次rollout的标量奖励。Token空间学习绕过了这一点更新可以从丰富的自然语言反馈中导出而不是标量奖励。Token空间学习重新框架了深度模型的持续学习问题通过更新C“已学习上下文”来替代更新θ这种转向优化C对灾难性遗忘有一个关键意义回滚是简单的。如果对已学习上下文的更新损害了性能你可以简单地恢复先前的已学习上下文并像任何文本文件一样对记忆进行检查点保存。这在理论上对学习θ也是可能的但在实践中现代模型太大无法为每次知识更新存储权重的副本。这种重新框架阐明了现有工作如何融入持续学习的叙事。像DSPy、GEPA和Feedback Descent这样的提示词优化方法解决了问题的局部版本给定来自单个任务分布Dᵢ的任务Tᵢ的样本找到最佳上下文Cᵢ。DSPy使用贝叶斯优化来搜索提示词配置GEPA和Feedback Descent使用自然语言反思来提出提示词更新。这些方法在学习上下文方面显示出有希望的结果但它们是为单任务场景设计的而不是为了在开放式任务序列中向前传递已学习的上下文。完整的持续学习问题需要在跨越数月甚至数年的开放式任务序列中优化C跨越许多模型发布和底层架构修订。这是MemGPT和Sleep-time Compute针对的场景不单为一个任务优化上下文需要在无限期的时间范围内在任务之间维护和精炼已学习的上下文。解决token空间的持续学习在token空间中解决持续学习问题实际需要什么今天长期上下文学习的默认方法是先追加后总结累积原始经验直到上下文溢出然后通过总结进行压缩这是不够的。追加将所有表征工作推迟到推理时间迫使模型在每次前向传播时重新处理原始日志。总结是有损的和突然的重要细节在没有警告的情况下会消失。用于记忆精炼的睡眠时间计算一个有前景的方向是将后台计算专用于记忆管理。就像人类在睡眠期间整合记忆一样智能体可以在活动会话之间处理和重构已学习的上下文。这种睡眠时间计算可能涉及识别存储记忆中的矛盾从具体经验中抽象模式或预先计算将加速未来推理和检索的关联。教智能体管理自己的记忆如果智能体要真正在token空间中学习它们需要理解自己的记忆限制。这表明后训练有一个专门针对记忆自我意识的角色。智能体应该学会识别何时它们的上下文正在退化何时记忆变得陈旧或矛盾以及如何主动重构它们自己的上下文。今天最新的最先进前沿模型仍然将系统提示词视为静态的。它们不自然地理解它们可以并且应该在从经验中学习时编辑自己的指令。改变这种底层行为需要专门针对上下文管理的训练将记忆操作视为一流的工具使用。在权重和token空间中的持续学习持续学习与学习机制本身是正交的新信息可以由已学习的参数或已学习的上下文来表示。我们设想未来的智能体同时使用这两种表示参数记忆用于纯token表示的效率提升。参数记忆的主要优势是效率。上下文大小最终是有限的长上下文处理起来很昂贵尽管KV缓存可以显著降低长上下文的计算负担。我们预测未来token空间中的记忆最终会被蒸馏到模型权重中以获得额外的个性化和效率提升。Token空间表示可以引导这个蒸馏过程例如已学习的上下文可以用于生成合成数据例如假设的对话用于监督微调或用于强化学习的评估标准。尽管在智能体的生命周期中模型将不可避免地被多次更换但这个token到权重的蒸馏过程可以提供一种持续学习到模型参数的机制同时在模型发布之间保持连续性。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**

鄂尔多斯做网站代理网站备案

网站建设与维护课件全球最新军事新闻

制作表白网站教程闵行网站建设

wordpress有趣代码广州seo排名优化公司

旅游网站开发工程师龙岩seo

河北省建设局网站材料备案网站内容建设的布局和结构图

数字媒体艺术网站建设ui界面设计素材