Agent的本质定义
Agent+大语言模型(LLM)+推理能力+工具能力
让llm具备自主感知 决策 执行 反思的闭环能力 可调用外部工具解决复杂任务
核心原理框架
graph lr
A 用户目标
B 感知模块
C规划与决策
D工具调用
E执行反馈
F结果评估
G输出结果
ABCDEF完成—》G
ABCDEF未完成-》CDEF 循环
关键组件
感知模块
目标 理解用户的意图与上下文
实现
提示词工程+上下文学习
规划与决策
目标 拆解任务 制定步骤 选择工具
实现
chain-of-Thought(思维链)+ReAct框架
工具库
目标 扩展 LLM能力边界(搜索/计算/API等)
实现
函数描述(openapi格式)+注册机制
执行引擎
目标 调用工具并处理返回结果
实现
代码解释器(python)+api调用代理
反思机制
目标 验证结果的有效性 错误了重新规划
实现
self-Critique+递归迭代
完整工作流程(旅游示例)
任务解析
用户输入:
帮我规划一个3日大连5000元的旅行,需要包含水上乐园
agent处理
1.识别关键要素:地点+上海, 时长=3日, 预算=5000, 强制约束=迪士尼
2.拆解子任务:[“查询大连天气”,“检索水上乐园门票价格”,“查找经济型酒店”,“规划交通路线”]
动态规划与工具调用
sequenceDiagram
participant Agent
participant Tool_Weather
participant Tool_Search
participant Tool_Calculator
Agent->Tool_Weather (调用天气查询api 地点+日期)->(晴天)Agent-》Tool_Search(搜索当前经典门票价格)-》(票价)agent-》Tool_Calculator(计算总额)-》(总额)Agent
反思与优化
检查预算
总额《预算 -》符合
遗漏检测
发现未安排的——》追加差价
生成最终方案
结构化输出日程表-》费用清单
核心架构模式
ReAct范式(让我想起了古法 3w2H 5w1H 理由+行动)
提示词结构示例
思考:我需要查询水上乐园票价 -》调用搜索工具
行动:{“tool”:”Websearch”,”input”:”2025水上乐园成人票价”}
观察:官网显示平均票价599
思考:计算两人门票为599+599 -》调用计算器验证
行动:{“tool”:”Calculator”,”input”:”599*2″}
观察:结果=1198
分层决策架构
graph TB
A任务层
B元Agent
C工具调用Agent
D数学计算Agent
E安全审核Agent
F网络搜索
GAPI调用
A-B-C
A-B-D
A-B-E
A-B-F
A-B-G
关键优化技术
工具选择错误
工具描述向量化+相似度匹配
无限循环
ps:递归设置退出条件啊 老弟 设置最大迭代次数 + 死循环检测
幻觉调用
工具权限沙箱(禁止文件删除)+输出格式校验
长程依赖
记忆机制(向量存储历史步骤)+关键信息抽取
典型Agent类型
单Agent
框架 AutoGPT
场景 简单任务 文件处理 数据查询
多Agent协作
框架MetaGPT/Camel
场景 复杂工程 产品设计 代码生成
垂域Agent
框架 ChemCrow
场景 专业领域 药物研发 法律分析
具身Agent
框架RT-X
场景 机器人控制 视觉动作闭环
开发工具栈
- 核心框架| LangChain,LlamaIndex |Azure AutoGen
- 工具管理| LangChain Tools, huggingface Agents | AWS Bedrock Agents
- 记忆模块| Redis向量库, PGVector |Zilliz Cloud
- 调试监控| LangSmith,Prometheus | Datadog LLM Observability
性能瓶颈与局限
调用成本
复杂任务耗时
工具链可靠性


评论(0)
暂无评论