APP STORE Anthropic宣告「递归自我普及」时期到来, 全景综述带你一探究竟

发布日期：2026-06-11 18:36 点击次数：77

APP STORE Anthropic宣告「递归自我普及」时期到来，全景综述带你一探究竟

近日，Anthropic 发布了一篇激励每每原宥的著作《When AI builds itself》。文中线路了极其惊东说念主的里面数据：为止 2026 年 5 月，Anthropic 非常 80% 的归拢代码已由 Claude 编写，工程师的日常代码产出飙升了 8 倍；更令东说念主防卫的是，AI 智能体已经不错自主提倡假定、实行长达数百小时的强化安全推行。

这讲明 AI 已入手展现自主参与下一代模子联想与覆按的后劲，而这种自我普及智商（Self-Improvement），正在成为下一代 AI 发展的流毒驱能源。

图 1：大言语模子自我普及 (LLM Self-improvement) 的构想：东说念主类只需启动系统，模子便能够合手续更动本身智商。

畴前，探讨大言语模子（LLMs）的下一步发展时，焦点常常局限于更大的参数鸿沟、海量的数据喂养和极限的算力堆叠。

然则，传统依赖东说念主类监督的覆按范式正逐步濒临瓶颈：高质地东说念主工标注极其同意，巨匠反馈难以鸿沟化；更致命的是，跟着模子智商的指数级攀升，在高档数学、复杂代码生成和前沿科研推理等任务中，东说念主类的融会界限，反而成了适度模子进化的天花板。与此同期，跟着智能体时期的锻真金不怕火，模子已展现出自主生成数据、调用用具和实行代码的强劲自动化智商。

这标明，现时的大言语模子已具备主动参与本身迭代的智商，无需再十足依赖东说念主类的监督。这一趋势璀璨着一种真切的范式改造：大言语模子的发展正从被迫采取东说念主类微调与修正转向自主探索与合手续进化。

为了解构大言语模子自我普及的底层逻辑，填补系统性盘考的空缺，来自纽约州立大学石溪分校 Zesearch NLP Lab 的 Haoyan Yang、Jiawei Zhou 等东说念主经过快要一年的发奋，最近发布了一篇 113 页、涵盖 500 余篇前沿文件的对于大模子自我普及的全景综述：

GitHub Repo: https://github.com/Zesearch/self-improvement-llm

状貌网站: https://zesearch.github.io/self-improvement-llm-website/

图 2：LLM 自我普及系统 (LLM Self-improvement system) 的闭环框架：数据获得、数据筛选、模子优化、推理细化与连系全程的自动评估。

论文提倡了「LLM 自我普及系统」（LLM Self-Improvement System）这一见识。

比拟已干系于自我演化智能体 (Self-Evovling Agents) 的盘考，这篇论文愈加从模子本身智商动身，原宥模子何如凭借内在智商驱动系统合手续演化，并将畴前漫步在数据、覆按、推理和评估中的要领，整合为一个由模子智商驱动的系统级闭环人命周期。

在这个框架中，自我普及不再是单一算法，而是一套可合手续运转的智能系统。论文围绕一个中枢问题伸开：如安在不同阶段诈欺模子本身智商，鼓动合手续且自主的更动？

论文将自我普及系统详细为四个中枢关节：数据获得（Data Acquisition）→ 数据筛选（Data Selection）→ 模子优化（Model Optimization）→ 推理细化（Inference Refinement），并由自动评估（Autonomous Evaluation）当作连系全程的阻挡层。每个关节皆以模子的自动化智商为中枢，使模子能够主动获得数据、筛选样本、优化本身，并在推理中反想更动。

数据获得（Data Acquisition）

图 3：数据获得 (Data Acquisition) 的三种主要旅途：静态筛选、环境交互与合成生成。

自我普及领先需要马咽车阗的学习数据。论文将数据获得分为三类：静态筛选（Static Curation）、环境交互（Environment Interaction）和合成生成（Synthetic Generation）。

静态筛选是从已有语料中挖掘可学习样本；环境交互让模子通过与外部环境交互来主动获得数据；合成生成则进一步让模子我方构造新的覆按数据。跟着这三类方式递进，模子从使用已罕有据走向主动探索甚而是自主创造数据。

数据筛选（Data Selection）

图 4：数据筛选（Data Selection）的两类中枢计制：模子指挥评分与自相宜遴荐。

在数据获得之后，问题转向数据筛选：要点变成当已经获得到饱和的数据后，判断哪些数据着实有价值。低质地、访佛或诞妄的数据可能放大偏差，甚而导致模子崩塌。因此，系统需要筛选出更有用的数据，参预下一步覆按。

论文将数据筛选要领分为两类：第一类是模子指挥评分（Model-Guided Scoring），即诈欺模子产生的信号对数据进行打分和过滤，幸运彩app2026世界杯中国官方下载举例置信度、困惑度、梯度或亏蚀函数；第二类是自相宜遴荐（Adaptive Selection），即把数据筛选变成一个可学习的政策，笔据模子智商和反馈动态更新，遴荐现时最有价值的数据。

模子优化（Model Optimization）

龙虎斗2026世界杯官方最新网址

图 5：模子优化 (Model Optimization) 的 GRO 框架，通过生成、奖励与优化轮回鼓动模子智商合手续普及。

在数据经过获得和筛选之后，模子优化阶段厚爱将这些数据着实转动为模子智商。

作家将这已经由顾虑为 GRO 框架，即生成 — 奖励 — 优化（Generation–Reward–Optimization）：模子领先基于已罕有据生成反应现时智商的输出，再诈欺奖励信号判断其质地，并通过覆按更新本身参数，使模子在轮回迭代中合手续普及智商。

在这个 GRO 轮回中，生成（Generation）是起始：模子基于现时智商产生谜底、推理链等。论文将生成方式分为三类：自我探索（Self-Exploratory Generation）让模子尝试生成多种可能解；精粹生成（Refined Generation）让模子在运转输出上反想和修改；交互式生成（Interactive Generation）则通过用具、环境或外部反馈约束退换生成经由。

随后是奖励（Reward）阶段：系统对生成收尾进行自动评估，判断哪些输出值得学习。奖励信号主要包括三类：启发式奖励（Heuristic Reward）依赖王法或苟简野心，模子奖励（Model-based Reward）由模子或奖励模子进行打分，可考据奖励（Verifiable Reward）则通过代码实行、谜底匹配或方式化搜检等方式提供更可靠的反馈。

临了是优化（Optimization）阶段：模子诈欺这些反馈更新本身参数。优化要领不错分为三类：监督微调（Supervised Fine-Tuning， SFT）把高质地输出当作覆按数据，强化学习（Reinforcement Learning， RL）笔据奖励信号平直优化模子行为，搀杂优化（Hybrid Optimization）则结合 SFT 和 RL：先用高质地数据进行监督学习，再通过奖励信号进一步强化模子说明。

此外，作家还顾虑了三种常见的模子优化范式，它们不错看作 GRO 框架在具体要领中的不同实例：迭代拒绝采样（Iterative Rejection Sampling）、自我考据与精粹（Self-Verification and Self-Refinement），ag·真人(官网)平台以及自我对弈（Self-Play）。

在迭代拒绝采样中，模子先生成多个候选谜底，再通过王法或模子打分筛选高质地样本，临了将这些样本用于监督微调。自我考据与精粹则先生成运转谜底，再进行自我搜检与修改，临了诈欺更动后的谜底进行监督微调，或将修改前后的谜底构形成偏好对进行偏好优化，从而普及模子智商。自我对弈通过模子本身或多个模子之间的竞争与相助生成更具挑战性的样本，并借助输赢、偏好或考据信号更新模子。

推理细化（Inference Refinement）

图 6：推理细化 (Inference Refinement) 的四类要领：解码政策、推理式增强、智能体系统增强与测试时覆按。

在模子优化之后，自我普及系统还需要辩论另一个问题：模子智商如安在实质推理经由中被进一步普及。

模子优化原宥的是通过覆按更新参数，而推理细化（Inference Refinement）原宥的是：在参数不一定永久改变的情况下，何如让模子在讲演问题时更好地搜索、反想、调用用具并修蓝本身输出。

论文将推理细化归纳为四类要领。第一类是解码政策（Decoding Strategies），通过采样、树搜索、logit 退换和后果优化等方式，指挥模子生成更可靠的谜底。第二类是推理式增强（Reasoning-based Improvement），让模子在生成经由中加入实行、反馈、反想和相助推理，从而约束修正中间设施。第三类是智能体系统增强（Agentic System-based Improvement），通过指示词、用具、牵记模块和责任流，把模子放入更竣工的任务系统中普及说明。第四类是测试时覆按（Test-Time Training），即模子在面对具体问题时，诈欺现时任务产生的反馈进行临时更新，再生成最终谜底。

这部分的中枢酷好在于，它把自我普及膨胀到推理经由，使系统不仅依赖覆按后的参数更新，也能在具体任务中杀青动态更动。这亦然现时「自我演化智能体」盘考最原宥的主见之一：智能体如安在运行时通过策画、反想、用具调用和环境交互，约束退换本身行为并普及任务完成智商。

自动评估（Autonomous Evaluation）

图 7：自动评估（Autonomous Evaluation）通过动态基准和交互环境评估，合手续监控自我普及系统的真实跨越。

除了上述四个关节，自我普及系统还需要一个连系全程的阻挡层：自动评估（Autonomous Evaluation）。若是枯竭评估，系统就无法判断本身更动是否真实有用。作家合计，评估经由不应只依赖东说念主工搜检或固定测试集，而应能够跟着模子迭代自动更新并提供反馈。

为此，论文强调两类要领：动态基准（Dynamic Benchmarking）不错合手续生成或更新测试任务，幸免静态基准失效；交互环境评估（Interactive Environment Evaluation）则让模子在真实或模拟环境中完成任务，并笔据环境反馈自动判断说明。

通过这种方式，评估不再是闭环结尾的一次性打分，而是合手续指挥系统更动的反馈机制。

风险、应用与将来（Application， Challenge and Future Outlook）

图 8：自我普及系统的六大挑战：数据自噬、反馈信号弱势、优化驱动失败、无效自我精粹、评估瓶颈和监督瓶颈。

自我普及系统具有庞杂后劲，但也濒临一系列挑战。作家一共顾虑了六个流毒问题：模子反复学习本身生成的数据，可能带来数据自噬（Data Autophagy）；诞妄或有偏的反馈会形成反馈信号弱势（Flawed Feedback Signals）；覆按和优化经由可能出现优化驱动失败（Optimization-Driven Failures）；推理阶段的自我精粹偶而仅仅名义修改，形成无效自我精粹（Ineffective Self-Refinement）；此外，评估瓶颈（Evaluation Bottlenecks）和监督瓶颈（Supervision Bottlenecks）也会适度系统的可靠发展。