Ovidius 标志
推荐 / (更新于

大模型开发:AgentLoop及其三个基本范式

大模型开发:AgentLoop及其三个基本范式

本文希望可以由浅入深地剖析 Agent(智能体)的运行基础,解构 ReAct、Plan and Execute 以及 Reflection 这三大 Agent 架构范式。

基础概念:Agent Loop 与范式转移

1. 什么是 Agent Loop(智能体循环)?

大语言模型本质上是无状态(Stateless)的概率预测引擎,其推理和感知被局限于单次 API 调用的上下文窗口内。为了使其具备解决现实世界复杂问题的能力,我们引入了 Agent 架构。

Agent 并非只是静态工作流中的一个模型,而是一个包含模型(Models)、工具(Tools)和编排层(Orchestration Layer)的完整应用程序。其核心是一个连续的、周期性的 5 步问题解决循环(Agentic Problem-Solving Process)

  1. Get the Mission(获取任务): 接收用户或自动化触发器下发的具体宏大目标。
  2. Scan the Scene(感知环境): 获取可用资源,例如历史上下文、长期记忆或可用工具列表。
  3. Think It Through(深入思考): 模型作为推理引擎,分析任务与环境并制定推理链。
  4. Take Action(采取行动): 编排层执行计划的具体步骤(如调用 API、执行代码)。
  5. Observe and Iterate(观察与迭代): Agent 观察动作返回的结果,将新信息加入记忆,并开启下一轮循环。

2. 从传统工作流到现代 Agent 的本质区别

  • 从确定性到随机性(Deterministic vs. Stochastic):在传统的自动化脚本或早期的任务型 Agent 中,开发者扮演着“砖瓦匠(Bricklayer)”的角色,必须硬编码每一个逻辑步骤。而在现代 Agent Loop 中,开发者转变为“导演(Director)”。我们通过系统 Prompt 设定场景、提供 Tools,引导这个自主的“演员”在循环中通过概率推理交付结果。
  • 低廉的推理成本替代昂贵的训练成本:过去,训练一个强化学习 Agent 需要通过策略梯度算法在环境中试错并不断更新底层神经网络权重 θ\theta。现代 Agent 则将预训练好的大模型作为核心推理引擎,利用强大的**上下文工程(Context Engineering)**在上下文窗口中进行零样本或少样本的策略迭代。

Agent 的三大核心范式深度解构

编排层在处理“思考与执行”的逻辑结构上衍生出了不同的经典范式。以下是三种最关键的架构及其底层推导。

1. ReAct (Reasoning and Acting):交错的自回归与环境交互

机制与数学原理:

传统的大模型纯内部自回归容易产生幻觉。ReAct 将“内部认知”与“外部环境交互”耦合,形成一个交错的马尔可夫决策过程(MDP)。Agent 的生成轨迹被重构为 τ=(a1,o1,s1,a2,o2,s2,)\tau = (a_1, o_1, s_1, a_2, o_2, s_2, \dots)。其中 ata_t 为行动,oto_t 为观察,sts_t 为内部思考。

Agent 在时刻 tt 的策略(Policy)定义为基于历史上下文 ctc_t 生成思考和动作的条件概率:

πθ(at,stct)\pi_{\theta}(a_t, s_t | c_t)

  • 出处: Shunyu Yao, et al., 2022, “ReAct: Synergizing Reasoning and Acting in Language Models”

2. Plan and Execute (Plan-and-Solve):解耦的层次化策略

机制与强化学习映射:

面对长期复杂任务,ReAct 的单步自回归容易导致误差累积。此范式引入层次化强化学习(Hierarchical RL)思想,强制解耦“规划层”与“执行层”。

  • 宏观规划:Planner 作为高层策略 πhigh\pi_{high},生成一系列子任务 T={t1,t2,,tn}T = \{t_1, t_2, \dots, t_n\}。此时,RL 的过程奖励模型(PRM)至关重要,它为每一个子步骤的合理性分配奖励 r(ti)r(t_i),而非仅仅评估最终结果。
  • 微观执行:Executor 作为底层策略 πlow\pi_{low},针对每一个 tit_i 调用工具。系统常表现为多 Agent 协同的“协调者模式(Coordinator pattern)”。
  • 出处: Lei Wang, et al., 2023, “Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models”.

3. Reflection (Reflexion):基于语言的反馈闭环

机制与多模态前沿:

Reflection 模仿人类“从失败中学习”,包含 Actor、Evaluator 和 Memory 三个核心组件。

它将传统 PPO 算法中昂贵的梯度更新 θk+1=θk+αθJ(πθ)\theta_{k+1} = \theta_k + \alpha \nabla_{\theta} J(\pi_{\theta}) 替换为通过修改输入上下文实现的策略更新:πθ(ax,f1,f2,,ft)\pi_{\theta}(a | x, f_1, f_2, \dots, f_t)(其中 ftf_t 是反思记忆)。

在多模态 GUI 导航中,如果 Agent 点击错误,多模态 Evaluator 会对比屏幕截图,提取文本教训(如“按钮应为蓝色”),作为先验知识注入下一轮 Prompt,极大地提升了泛化能力。

架构总结

  • ReAct 侧重于步步为营的交替试错。
  • Plan and Execute 侧重于高瞻远瞩的解耦与分工。
  • Reflection 侧重于吃一堑长一智的反馈循环。

继续阅读