前言
在这个 AI 概念层出不穷的时代,我反正是被 LLM、Agent、RAG、MCP、Skill 这些词汇弄得晕头转向,但其实,很多看似高大上的概念,本质上它就是“新瓶装旧酒”。这篇文章将通过一个通俗易懂的演进逻辑,扒开这些概念的底裤,让你看透它们的本质。
一、 从“智障”到“牛马”:大语言模型的进化之路
1. LLM (Large Language Model)
一切的起点是大语言模型(LLM)。小的语言模型一开始还是个智障,但随着模型的参数越来越大,居然在某个临界点涌现出了智能。为了和之前这个智障模型做个区分,你在前面加了个“大”字,变成了 LLM (Large Language Model)这就构成了现在常说的大语言模型,简称 LLM。恭喜你发明了今天的第一个新词。
2. Prompt & Context (提示词与上下文)
大模型的本质其实很枯燥,它起初只是个“文字接龙”高手,只会不断输出下一个字。如果只这么用,它看起来就像个智障。
为了让它变聪明,我们引入了角色扮演。现在,请立刻把你自己想象成一个老板,LLM 就是你的员工,我们叫它**“小L”**。
但小L有个致命的设定:他只能“一问一答”,答完就忘,绝不允许追问。为了榨干这个只能单次对话的小L的全部剩余价值,你被迫发明了一系列“洋气儿”的新词:
- Prompt (提示词): 这是你和小L对话的统称。既然要压榨他,你发出的指令自然要有水平,这部分内容就叫 Prompt。
- Context (上下文): 你发现 Prompt 还可以细分,一部分是最终指令,另一部分是必要的背景信息。于是你把背景信息单独拎出来,起名叫 Context。
- Memory (记忆): 这是最天才的“伪装”。因为小L不能追问,也没有记忆。为了解决这个问题,你每次沟通前,都把之前的对话历史一股脑塞进 Context 里,再次发给他。 这样,虽然小L本质上还是在做“一问一答”,但看起来就像他拥有了Memory(记忆)一样。甚至,你还可以让他自己对这些记忆进行压缩总结,以减少长度。
恭喜你! 就在这一套“压榨”流程中,你已经不知不觉发明了 Prompt、Context 和 Memory 三个核心概念。
3. Agent (智能体)
LLM(大模型)本身其实只是一个玩“词语接龙”的高手(我们就继续叫它 小 L 吧)。
我们不管把小 L 调教得再好,它都有个致命弱点:它没有“手脚”,并且与世隔绝。
- 它不知道今天的日期。
- 它查不到最新的新闻。
- 遇到不懂的,它要么直说不知道,要么就开始一本正经地胡说八道。
这时候,通常会出现两种解决方案:
- 初级阶段(手动牛马模式): 我们想让小 L 回答“今天天气怎么样”,我们得先去百度查好,然后把天气预报复制给小 L,让它整理。
- 结果: 我们发现咱成了那个“牛马”,小 L 只是个负责润色的秘书。
- 高级阶段(Agent 智能体模式): 你觉得这样太蠢了,于是你写了一个“神秘小程序”包裹在小 L 外面。
- 你告诉这个程序:“如果小 L 需要查资料,你就帮它去查,查完直接喂给它,别来烦我。”
- 结果: 在外人看来,你依然只是简单问了一句,小 L 就给出了完美答案。但实际上,是这个程序(Agent)代理你去跑了腿、查了网、整理了数据,最后才交给小 L 处理。
- 所以说:Agent 就是那个代替你的‘牛马’程序——它负责跑腿查资料,而你只需要在那儿当老板。
总结一下:
- 本质: Agent = LLM(大脑)+ 规划能力 + 记忆 + 工具使用(手脚)。
- 分工: LLM 负责“思考”和“理解”,而 Agent 程序负责“干活”(联网、操作软件、读写文件)。
- 一句话定义:如果 LLM 是个被关在小黑屋里的天才,那 Agent 就是给他通了网线、还配了把万能钥匙。
4. RAG (Retrieval-Augmented Generation)
Agent 虽然给 LLM 连上了网(Web Search),解决了“消息过时”的问题,但还有一个大坑:LLM 不知道你的“公司机密”。
比如你问它:“我上周写的周报里,那个 Bug 修复得怎么样了?”
- LLM 他就懵了: “我是 2023 年训练的,而且我也不住在你电脑里,我哪知道?”
- Web Search 也废了: 因为你的周报没发到互联网上。
这时候,就需要 RAG (Retrieval-Augmented Generation) 出场了。
只不过一个是在公网查,一个是在私域查。
职场定义: 如果说 LLM 是个“空降的高管”(懂道理,但不懂公司具体业务),那么 RAG 就是你给他配的“内部档案管理员”。
当老板问具体业务时,管理员就会先去公司本地资料库里把相关文件翻出来,摆在老板桌上(塞进 Prompt)。
老板看着文件照本宣科,就能回答得头头是道,还显得特别专业。
核心技术(由“死记硬背”进化为“懂你意思”): 这里的搜索不完全等同于咱们平时用的 Ctrl+F(关键词匹配)。
向量数据库(Vector DB): 它是 RAG 的核心武器。它不看字面,看语义。
比喻: 以前你搜“缺钱”,系统只能匹配到“缺钱”这两个字;现在有了向量搜索,你搜“手头紧”,Agent 也能把“缺钱”的文档给你找出来。这叫“懂了你的言外之意”。
终极奥义(Everything is Search): 你刚才让 Agent 联网搜资料(Web Search),现在又让它搜本地文档(RAG)。 其实别搞那么复杂,这俩本质上是一回事:都是“开卷考试”:与其指望 LLM 那个死脑子把所有知识都背下来(训练成本太高),不如教它怎么“查资料”。
二、 沟通的标准化:让“牛马”更听话
随着 Agent 越来越复杂,我们需要更规范的沟通方式:
1. Function Calling (函数调用)
Agent 和小 L 怎么沟通?用自然语言太累了,万一小 L 听不懂咋办? 为了防止 LLM 胡乱描述需求,我们约定它必须按 JSON 等特定格式回复,方便程序解析。于是Agent对小 L 说:“咱们以后聊工具调用,统一用 JSON 格式。” 这个约定,就叫 Function Calling。
2. MCP (Model Context Protocol)
Agent 既然能干活了,但很快你发现了一个新麻烦: 以前所有的工具(计算器、日历、搜索代码)都写在 Agent 的主程序里。这就像让一个秘书随身背着打印机、饮水机和微波炉跑来跑去,太重了,也不利于扩展。
改进方案: 把这些工具拆分出去,做成独立的“服务”。
- 比如做一个专门查天气的服务,做一个专门搞计算的服务。
新问题来了: Agent 主程序怎么知道这帮“独立服务”怎么用?
- 有的服务可能叫
get_weather,有的可能叫check_tianqi,乱七八糟。
这时候,就需要 MCP (Model Context Protocol) 出场了。
- 职场定义(标准化接口): MCP 说白了就是一份**“外包管理规范”**。它强行规定了 Agent 和所有外部工具之间的对话格式:
- 不管你是什么工具,必须提供一个
tools/list接口,告诉我你会啥。 - 不管你想干什么,必须通过
tools/call接口,等着我来调。 - 本质: 这就是一套约定,就像前后端的接口文档一样,然后给这约定起了个名字叫做 MCP,翻译过来就是叫模型上下文协议。
- 不管你是什么工具,必须提供一个
- 此时的“终极职场生态”: 有了 MCP 之后,整个架构就变成了这样,分工极其明确(且扎心):
- LLM (小 L): 只会画饼的“智者”。只负责动嘴,下达指令,手无缚鸡之力。
- MCP Server: 真正干活的“工具房”。这里面放着计算器、搜索代码、文件转换器等各种真家伙。
- Agent: 跑断腿的“传话筒”。
- 它先把 LLM 的“大白话”翻译成调用工具的代码发给 MCP。
- 再把 MCP 干完活的结果原封不动地传回给 LLM。
- 最后还要把整理好的汇报发给你这个老板。
三、 工作流的博弈:僵化 vs 灵活
针对复杂任务(如:提取PDF -> 翻译 -> 保存为Markdown),业界探索了不同的实现路径,从刚性到柔性:
现在 Agent 能干活了,但怎么干得好?这里有条鄙视链:
Level 1: Workflow / LangChain (刚性)
你想把 PDF 转成 Markdown 并翻译。这流程太固定了,完全可以用代码写死。
- LangChain: 用代码写死流程(硬编码)。
- Workflow: 把代码变成图形化拖拽(低代码)。
- 特点: 稳定,但死板。
Level 2: Pure Agent (极度柔性)
你直接跟 Agent 说:“把这个文件处理下。” Agent 自己想办法,自己规划。
- 特点: 极度灵活,但不可控。鬼知道它会给你搞出什么幺蛾子,还非常浪费 Token。
Level 3: SKILL (中庸之道)
你不想写死代码,又怕 Agent 乱来。 于是你写了个 SKILL.md(说明文档)放在目录里,里面写好了操作规范,甚至放好了脚本。 你告诉 Agent:“干活前,先读一下那个文档,按规矩办事。” 这就是 Skill。
- 评价: 这不就是把 Prompt 换个地方存吗?是的,这就是名词诈骗。但它确实兼顾了灵活性和可控性。
四、 终局推演:谁会活下来?
最后,让我们高屋建瓴地梳理一下这些概念的关系。
很多概念只是技术发展的中间产物。所有这些技术(RAG, Agent, MCP...)本质上只有两件事:
通过代理减少沟通次数(帮我们省去反复对话的麻烦)。
自动往 Prompt 里塞上下文(帮我们省去手动输入的麻烦)。
MCP vs Function Calling: 别再问能否互相取代了。一个是对内(LLM)的沟通家规,一个是对外(工具)的接口协议,完全不搭嘎。
SKILL vs Workflow:
- Workflow 是工业化的流水线,适合千篇一律的任务。
- Pure Agent 是天才艺术家,适合探索未知,但容易翻车。
- Skill 是带着“操作手册”的熟练工。
我的暴论: Skill 这种“间接式披露、按需加载”的模式,虽然现在看起来有点鸡肋(像个加载器),但对于普通人来说,它兼顾了灵活性和稳定性。
在未来,Skill 很可能会逐渐淘汰掉复杂的 MCP 配置和死板的 Workflow,成为每个人打造自己专属“超级牛马”的最佳方式。
未来趋势:便利性至上
- 就像 Java 的 SpringBoot 战胜了繁琐配置一样,用户体验和便利性将是决定性因素。
- 普通用户不需要关心 Skill 放在哪、MCP 怎么配。
- 终极形态:一个打包好的“超级 Agent”,它内置了所有必要的 Skill 和工具,用户开箱即用(类似于现在的 Claude Desktop 或 Cluade Bot 尝试的方向)。
总结
不管名词如何炸裂,背后的逻辑依然是为了解决 “让 AI 更准确、更自动化地服务人类” 这一目标。未来的 AI 工具将越来越“无脑”化,技术细节将被封装在极简的交互界面之下。
文章内容来源于这期视频:








Comments NOTHING