大模型开发：AgentLoop及其三个基本范式

本文希望可以由浅入深地剖析 Agent（智能体）的运行基础，解构 ReAct、Plan and Execute 以及 Reflection 这三大 Agent 架构范式。

基础概念：Agent Loop 与范式转移

1. 什么是 Agent Loop（智能体循环）？

大语言模型本质上是无状态（Stateless）的概率预测引擎，其推理和感知被局限于单次 API 调用的上下文窗口内。为了使其具备解决现实世界复杂问题的能力，我们引入了 Agent 架构。

Agent 并非只是静态工作流中的一个模型，而是一个包含模型（Models）、工具（Tools）和编排层（Orchestration Layer）的完整应用程序。其核心是一个连续的、周期性的 5 步问题解决循环（Agentic Problem-Solving Process）：

Get the Mission（获取任务）: 接收用户或自动化触发器下发的具体宏大目标。
Scan the Scene（感知环境）: 获取可用资源，例如历史上下文、长期记忆或可用工具列表。
Think It Through（深入思考）: 模型作为推理引擎，分析任务与环境并制定推理链。
Take Action（采取行动）: 编排层执行计划的具体步骤（如调用 API、执行代码）。
Observe and Iterate（观察与迭代）: Agent 观察动作返回的结果，将新信息加入记忆，并开启下一轮循环。

2. 从传统工作流到现代 Agent 的本质区别

从确定性到随机性（Deterministic vs. Stochastic）：在传统的自动化脚本或早期的任务型 Agent 中，开发者扮演着“砖瓦匠（Bricklayer）”的角色，必须硬编码每一个逻辑步骤。而在现代 Agent Loop 中，开发者转变为“导演（Director）”。我们通过系统 Prompt 设定场景、提供 Tools，引导这个自主的“演员”在循环中通过概率推理交付结果。
低廉的推理成本替代昂贵的训练成本：过去，训练一个强化学习 Agent 需要通过策略梯度算法在环境中试错并不断更新底层神经网络权重 $\theta$ 。现代 Agent 则将预训练好的大模型作为核心推理引擎，利用强大的**上下文工程（Context Engineering）**在上下文窗口中进行零样本或少样本的策略迭代。

Agent 的三大核心范式深度解构

编排层在处理“思考与执行”的逻辑结构上衍生出了不同的经典范式。以下是三种最关键的架构及其底层推导。

1. ReAct (Reasoning and Acting)：交错的自回归与环境交互

机制与数学原理：

传统的大模型纯内部自回归容易产生幻觉。ReAct 将“内部认知”与“外部环境交互”耦合，形成一个交错的马尔可夫决策过程（MDP）。Agent 的生成轨迹被重构为 $\tau = (a_1, o_1, s_1, a_2, o_2, s_2, \dots)$ 。其中 $a_t$ 为行动， $o_t$ 为观察， $s_t$ 为内部思考。

Agent 在时刻 $t$ 的策略（Policy）定义为基于历史上下文 $c_t$ 生成思考和动作的条件概率：

$\pi_{\theta}(a_t, s_t | c_t)$

出处: Shunyu Yao, et al., 2022, “ReAct: Synergizing Reasoning and Acting in Language Models”。

2. Plan and Execute (Plan-and-Solve)：解耦的层次化策略

机制与强化学习映射：

面对长期复杂任务，ReAct 的单步自回归容易导致误差累积。此范式引入层次化强化学习（Hierarchical RL）思想，强制解耦“规划层”与“执行层”。

宏观规划：Planner 作为高层策略 $\pi_{high}$ ，生成一系列子任务 $T = \{t_1, t_2, \dots, t_n\}$ 。此时，RL 的过程奖励模型（PRM）至关重要，它为每一个子步骤的合理性分配奖励 $r(t_i)$ ，而非仅仅评估最终结果。
微观执行：Executor 作为底层策略 $\pi_{low}$ ，针对每一个 $t_i$ 调用工具。系统常表现为多 Agent 协同的“协调者模式（Coordinator pattern）”。
出处: Lei Wang, et al., 2023, “Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models”.

3. Reflection (Reflexion)：基于语言的反馈闭环

机制与多模态前沿：

Reflection 模仿人类“从失败中学习”，包含 Actor、Evaluator 和 Memory 三个核心组件。

它将传统 PPO 算法中昂贵的梯度更新 $\theta_{k+1} = \theta_k + \alpha \nabla_{\theta} J(\pi_{\theta})$ 替换为通过修改输入上下文实现的策略更新： $\pi_{\theta}(a | x, f_1, f_2, \dots, f_t)$ （其中 $f_t$ 是反思记忆）。

在多模态 GUI 导航中，如果 Agent 点击错误，多模态 Evaluator 会对比屏幕截图，提取文本教训（如“按钮应为蓝色”），作为先验知识注入下一轮 Prompt，极大地提升了泛化能力。

架构总结

ReAct 侧重于步步为营的交替试错。
Plan and Execute 侧重于高瞻远瞩的解耦与分工。
Reflection 侧重于吃一堑长一智的反馈循环。