【深度解构】别被这些 AI 黑话骗了:从 LLM 到 Agent,其实就是一部“牛马进化史”

发布于 4 天前  32 次阅读


前言

在这个 AI 概念层出不穷的时代,我反正是被 LLM、Agent、RAG、MCP、Skill 这些词汇弄得晕头转向,但其实,很多看似高大上的概念,本质上它就是“新瓶装旧酒”。这篇文章将通过一个通俗易懂的演进逻辑,扒开这些概念的底裤,让你看透它们的本质。

一、 从“智障”到“牛马”:大语言模型的进化之路

1. LLM (Large Language Model)

一切的起点是大语言模型(LLM)。小的语言模型一开始还是个智障,但随着模型的参数越来越大,居然在某个临界点涌现出了智能。为了和之前这个智障模型做个区分,你在前面加了个“大”字,变成了 LLM (Large Language Model)这就构成了现在常说的大语言模型,简称 LLM。恭喜你发明了今天的第一个新词。

2. Prompt & Context (提示词与上下文)

大模型的本质其实很枯燥,它起初只是个“文字接龙”高手,只会不断输出下一个字。如果只这么用,它看起来就像个智障。

为了让它变聪明,我们引入了角色扮演。现在,请立刻把你自己想象成一个老板,LLM 就是你的员工,我们叫它**“小L”**。

但小L有个致命的设定:他只能“一问一答”,答完就忘,绝不允许追问。为了榨干这个只能单次对话的小L的全部剩余价值,你被迫发明了一系列“洋气儿”的新词:

  • Prompt (提示词): 这是你和小L对话的统称。既然要压榨他,你发出的指令自然要有水平,这部分内容就叫 Prompt。
  • Context (上下文): 你发现 Prompt 还可以细分,一部分是最终指令,另一部分是必要的背景信息。于是你把背景信息单独拎出来,起名叫 Context。
  • Memory (记忆)这是最天才的“伪装”。因为小L不能追问,也没有记忆。为了解决这个问题,你每次沟通前,都把之前的对话历史一股脑塞进 Context 里,再次发给他。 这样,虽然小L本质上还是在做“一问一答”,但看起来就像他拥有了Memory(记忆)一样。甚至,你还可以让他自己对这些记忆进行压缩总结,以减少长度。

恭喜你! 就在这一套“压榨”流程中,你已经不知不觉发明了 PromptContextMemory 三个核心概念。

3. Agent (智能体)

LLM(大模型)本身其实只是一个玩“词语接龙”的高手(我们就继续叫它 小 L 吧)。

我们不管把小 L 调教得再好,它都有个致命弱点:它没有“手脚”,并且与世隔绝。

  • 它不知道今天的日期。
  • 它查不到最新的新闻。
  • 遇到不懂的,它要么直说不知道,要么就开始一本正经地胡说八道。

这时候,通常会出现两种解决方案:

  1. 初级阶段(手动牛马模式): 我们想让小 L 回答“今天天气怎么样”,我们得先去百度查好,然后把天气预报复制给小 L,让它整理。
    • 结果: 我们发现咱成了那个“牛马”,小 L 只是个负责润色的秘书。
  2. 高级阶段(Agent 智能体模式): 你觉得这样太蠢了,于是你写了一个“神秘小程序”包裹在小 L 外面。
    • 你告诉这个程序:“如果小 L 需要查资料,你就帮它去查,查完直接喂给它,别来烦我。”
    • 结果: 在外人看来,你依然只是简单问了一句,小 L 就给出了完美答案。但实际上,是这个程序(Agent)代理你去跑了腿、查了网、整理了数据,最后才交给小 L 处理。
    • 所以说:Agent 就是那个代替你的‘牛马’程序——它负责跑腿查资料,而你只需要在那儿当老板。

总结一下:

  • 本质: Agent = LLM(大脑)+ 规划能力 + 记忆 + 工具使用(手脚)。
  • 分工: LLM 负责“思考”和“理解”,而 Agent 程序负责“干活”(联网、操作软件、读写文件)。
  • 一句话定义:如果 LLM 是个被关在小黑屋里的天才,那 Agent 就是给他通了网线、还配了把万能钥匙。

4. RAG (Retrieval-Augmented Generation)

Agent 虽然给 LLM 连上了网(Web Search),解决了“消息过时”的问题,但还有一个大坑:LLM 不知道你的“公司机密”

比如你问它:“我上周写的周报里,那个 Bug 修复得怎么样了?”

  • LLM 他就懵了: “我是 2023 年训练的,而且我也不住在你电脑里,我哪知道?”
  • Web Search 也废了: 因为你的周报没发到互联网上。

这时候,就需要 RAG (Retrieval-Augmented Generation) 出场了。

只不过一个是在公网查,一个是在私域查。

职场定义: 如果说 LLM 是个“空降的高管(懂道理,但不懂公司具体业务),那么 RAG 就是你给他配的“内部档案管理员”。

当老板问具体业务时,管理员就会先去公司本地资料库里把相关文件翻出来,摆在老板桌上(塞进 Prompt)。

老板看着文件照本宣科,就能回答得头头是道,还显得特别专业。

核心技术(由“死记硬背”进化为“懂你意思”): 这里的搜索不完全等同于咱们平时用的 Ctrl+F(关键词匹配)。

向量数据库(Vector DB): 它是 RAG 的核心武器。它不看字面,看语义

比喻: 以前你搜“缺钱”,系统只能匹配到“缺钱”这两个字;现在有了向量搜索,你搜“手头紧”,Agent 也能把“缺钱”的文档给你找出来。这叫“懂了你的言外之意”

终极奥义(Everything is Search): 你刚才让 Agent 联网搜资料(Web Search),现在又让它搜本地文档(RAG)。 其实别搞那么复杂,这俩本质上是一回事:都是“开卷考试”:与其指望 LLM 那个死脑子把所有知识都背下来(训练成本太高),不如教它怎么“查资料”。

二、 沟通的标准化:让“牛马”更听话

随着 Agent 越来越复杂,我们需要更规范的沟通方式:

1. Function Calling (函数调用)

Agent 小 L 怎么沟通?用自然语言太累了,万一小 L 听不懂咋办? 为了防止 LLM 胡乱描述需求,我们约定它必须按 JSON 等特定格式回复,方便程序解析。于是Agent小 L 说:“咱们以后聊工具调用,统一用 JSON 格式。” 这个约定,就叫 Function Calling

2. MCP (Model Context Protocol)

Agent 既然能干活了,但很快你发现了一个新麻烦: 以前所有的工具(计算器、日历、搜索代码)都写在 Agent 的主程序里。这就像让一个秘书随身背着打印机、饮水机和微波炉跑来跑去,太重了,也不利于扩展

改进方案: 把这些工具拆分出去,做成独立的“服务”

  • 比如做一个专门查天气的服务,做一个专门搞计算的服务。

新问题来了: Agent 主程序怎么知道这帮“独立服务”怎么用?

  • 有的服务可能叫 get_weather,有的可能叫 check_tianqi,乱七八糟。

这时候,就需要 MCP (Model Context Protocol) 出场了。

  • 职场定义(标准化接口): MCP 说白了就是一份**“外包管理规范”**。它强行规定了 Agent 和所有外部工具之间的对话格式:
    • 不管你是什么工具,必须提供一个 tools/list 接口,告诉我你会啥。
    • 不管你想干什么,必须通过 tools/call 接口,等着我来调。
    • 本质: 这就是一套约定,就像前后端的接口文档一样,然后给这约定起了个名字叫做 MCP,翻译过来就是叫模型上下文协议。
  • 此时的“终极职场生态”: 有了 MCP 之后,整个架构就变成了这样,分工极其明确(且扎心):
    1. LLM (小 L): 只会画饼的“智者”。只负责动嘴,下达指令,手无缚鸡之力。
    2. MCP Server: 真正干活的“工具房”。这里面放着计算器、搜索代码、文件转换器等各种真家伙。
    3. Agent: 跑断腿的“传话筒”
      • 它先把 LLM 的“大白话”翻译成调用工具的代码发给 MCP。
      • 再把 MCP 干完活的结果原封不动地传回给 LLM。
      • 最后还要把整理好的汇报发给你这个老板。
    Agent 的内心独白:“主打一个我不生产信息,我只是信息的搬运工。”

三、 工作流的博弈:僵化 vs 灵活

针对复杂任务(如:提取PDF -> 翻译 -> 保存为Markdown),业界探索了不同的实现路径,从刚性到柔性:

现在 Agent 能干活了,但怎么干得好?这里有条鄙视链:

Level 1: Workflow / LangChain (刚性)

你想把 PDF 转成 Markdown 并翻译。这流程太固定了,完全可以用代码写死。

  • LangChain: 用代码写死流程(硬编码)。
  • Workflow: 把代码变成图形化拖拽(低代码)。
  • 特点: 稳定,但死板。

Level 2: Pure Agent (极度柔性)

你直接跟 Agent 说:“把这个文件处理下。” Agent 自己想办法,自己规划。

  • 特点: 极度灵活,但不可控。鬼知道它会给你搞出什么幺蛾子,还非常浪费 Token。

Level 3: SKILL (中庸之道)

你不想写死代码,又怕 Agent 乱来。 于是你写了个 SKILL.md(说明文档)放在目录里,里面写好了操作规范,甚至放好了脚本。 你告诉 Agent:“干活前,先读一下那个文档,按规矩办事。” 这就是 Skill

  • 评价: 这不就是把 Prompt 换个地方存吗?是的,这就是名词诈骗。但它确实兼顾了灵活性和可控性。

四、 终局推演:谁会活下来?

最后,让我们高屋建瓴地梳理一下这些概念的关系。

很多概念只是技术发展的中间产物。所有这些技术(RAG, Agent, MCP...)本质上只有两件事:

通过代理减少沟通次数(帮我们省去反复对话的麻烦)。

自动往 Prompt 里塞上下文(帮我们省去手动输入的麻烦)。

MCP vs Function Calling: 别再问能否互相取代了。一个是对内(LLM)的沟通家规,一个是对外(工具)的接口协议,完全不搭嘎。

SKILL vs Workflow:

  • Workflow 是工业化的流水线,适合千篇一律的任务。
  • Pure Agent 是天才艺术家,适合探索未知,但容易翻车。
  • Skill 是带着“操作手册”的熟练工。

我的暴论: Skill 这种“间接式披露、按需加载”的模式,虽然现在看起来有点鸡肋(像个加载器),但对于普通人来说,它兼顾了灵活性和稳定性。

在未来,Skill 很可能会逐渐淘汰掉复杂的 MCP 配置和死板的 Workflow,成为每个人打造自己专属“超级牛马”的最佳方式。

未来趋势:便利性至上

  • 就像 Java 的 SpringBoot 战胜了繁琐配置一样,用户体验和便利性将是决定性因素。
  • 普通用户不需要关心 Skill 放在哪、MCP 怎么配。
  • 终极形态:一个打包好的“超级 Agent”,它内置了所有必要的 Skill 和工具,用户开箱即用(类似于现在的 Claude Desktop 或 Cluade Bot 尝试的方向)。

总结

不管名词如何炸裂,背后的逻辑依然是为了解决 “让 AI 更准确、更自动化地服务人类” 这一目标。未来的 AI 工具将越来越“无脑”化,技术细节将被封装在极简的交互界面之下。

文章内容来源于这期视频:

届ける言葉を今は育ててる
最后更新于 2026-02-11