2026 年 6 月 22 日 AI

AI-从大模型对话、生图到Agent

#AI #大模型 #Agent #生成式AI

这一轮AI浪潮最容易被看见的变化，是机器突然“会聊天”了。但如果只把大模型理解为更聪明的聊天机器人，就会低估它真正带来的变化。

从文字对话、代码生成，到图片、视频和声音，再到能够操作软件、调用工具、连续完成任务的Agent，AI正在经历一次角色转换：

对话模型：给出答案。

多模态模型：理解并生成不同形式的内容。

Agent：围绕目标采取行动，并根据结果继续调整。

这三者并不是彼此替代的产品，而是一层层叠加的能力。大模型提供理解与推理，多模态扩展感知和表达，工具与Agent系统则把模型接入真实世界。

大模型为什么首先表现为“对话”？

大语言模型的基本训练目标，可以粗略理解为：根据已有上下文，预测下一个最可能出现的Token。

1 2	`输入：今天天气很好，适合出去____ 输出概率：散步 0.42，游玩 0.21，跑步 0.13……`

模型不断重复这个过程，就能生成一段连贯文字。这里的Token不一定是一个完整汉字或单词，而是模型处理文本时使用的基本单位。

2017年的Transformer架构使用Attention，让模型能够根据上下文动态关注不同位置的信息，并且比传统循环网络更容易并行训练。模型规模、数据规模和算力持续增长后，“预测下一个Token”逐渐表现出总结、翻译、写作、编程、问答和一定程度的推理能力。

这件事看起来有些反直觉：一个做概率预测的模型，为什么会像是在理解问题？

因为要准确预测大量不同领域的文本，模型必须在参数中压缩语言规律、概念关系、常见事实和解决问题的模式。它没有像数据库一样保存一份可以精确定位的原文，也不等于像人一样理解世界，但确实形成了一套能够泛化的内部表示。

所以，大模型既不能简单说成“只是在复制粘贴”，也不能直接等同于真正理解一切的智能。

对话模型真正改变了什么？

传统软件要求人适应机器：学习菜单、参数、命令、脚本和固定流程。大模型让自然语言第一次成为一种通用交互界面。

用户不再需要准确知道功能位于哪个按钮下面，而可以直接描述目标：

把这份会议记录整理成待办事项。

分析这段Shader为什么在移动端很慢。

用更容易理解的方式解释这篇论文。

根据报错信息检查项目，并提出修复方案。

这降低了知识和工具的使用门槛。不过，语言足够自然也带来一个问题：人很容易把“表达流畅”误认为“结论可靠”。

大模型生成的是统计上合理的后续内容，不是在内部查询一个永远正确的事实库。当信息缺失、问题含糊或者训练数据中存在冲突时，模型仍可能非常自信地补全一个错误答案，也就是常说的幻觉。

因此，对话模型比较适合：

1.整理、改写、总结已有材料。

2.生成初稿、方案和备选思路。

3.解释知识，辅助学习和头脑风暴。

4.编写、阅读和重构能够被验证的代码。

而涉及医疗、法律、财务、生产权限和不可逆操作时，必须引入可靠资料、验证步骤和人工确认。

从“记忆回答”到“查资料回答”

大模型有知识截止时间，参数里的知识也不方便精确更新。为了回答私有或实时问题，常见做法是RAG（Retrieval-Augmented Generation，检索增强生成）。

它的基本流程是：

用户问题
   ↓
从文档、数据库或网络检索相关内容
   ↓
把检索结果连同问题交给大模型
   ↓
模型依据材料组织答案，并附上来源

RAG并没有让模型本身知道更多，而是在回答时给它一本临时打开的参考书。它特别适合企业知识库、项目文档、客服手册和经常更新的资料。

但“接入知识库”不等于自动可靠。如果检索找错了段落，文档已经过期，或者模型忽略了材料中的限制条件，最终答案仍然会错。一个可用的RAG系统，真正困难的部分通常包括文档清洗、切分方式、权限隔离、检索排序、引用定位和效果评估，而不只是把文本存入向量数据库。

生图：AI开始生成像素

文字模型预测下一个Token，图像生成模型则学习图像分布。当前常见的扩散模型，可以粗略理解为两个过程：

训练时，逐步向图片加入噪声，让模型学习如何预测并去除噪声；生成时，从随机噪声出发，根据文字、参考图、姿势或边缘等条件，经过多次去噪得到图片。

1
2
3

随机噪声 → 粗略构图 → 物体轮廓 → 材质与光照 → 最终图像
                  ↑
            文本和参考图约束

它不是从素材库里找到一张图片再拼接，而是根据训练中学到的视觉规律生成新的像素组合。但训练数据的来源、版权、风格模仿和人物肖像权，仍然是不能回避的问题。

生图最重要的价值不是“输入一句话就得到完美作品”，而是把视觉创作的试错成本大幅降低。它适合概念探索、情绪板、分镜、构图草案、材质参考、广告变体和游戏前期设计。

实际使用时，比堆砌一长串形容词更有效的方法，是把需求拆成明确维度：

主体：画面里是谁或什么。

场景：主体处于怎样的环境。

构图：景别、机位、主体位置和画面比例。

光照：光源方向、时间、软硬和颜色。

风格：写实、插画、胶片、概念设计等视觉方向。

限制：不要出现的元素，以及需要保持一致的部分。

不过，生成模型对“看起来合理”比对“结构严格正确”更擅长。文字排版、复杂机械结构、精确空间关系、连续镜头的一致性，以及像素级可控修改，仍然需要专业软件、控制条件或人工调整。

多模态：不只是把生图接到聊天框

多模态模型能够处理文字、图片、声音和视频中的一种或多种信息。它带来的变化，不只是模型可以生成更多媒体，而是模型开始拥有更丰富的输入通道。

例如：

看到一张性能分析截图，定位异常DrawCall。

阅读UI设计稿，生成前端结构和样式。

根据语音会议内容，区分说话人并整理结论。

对比一段游戏录屏和策划需求，发现交互差异。

观察软件界面，并判断下一步应该点击哪里。

文本适合表达抽象规则，图像适合传递空间和视觉信息，声音包含语气与时间变化，视频则进一步包含动作和因果顺序。当这些信息进入同一个上下文后，AI就不再局限于纯文字世界。

但多模态也会放大错误来源。图片可能看不清，语音可能识别错误，视频可能漏掉关键帧，模型还可能对视觉内容作出过度推断。因此，模型“看到了”不代表它准确理解了每个细节。

Tool Use：模型开始连接外部世界

大模型本身只能生成内容。要查询实时天气、运行代码、读取项目、发送邮件或修改数据库，就必须调用外部工具。

工具调用通常不是模型直接执行任意操作，而是模型按照约定输出结构化请求：

{
  "tool": "get_weather",
  "arguments": {
    "city": "Shanghai"
  }
}

应用程序验证参数、检查权限并执行工具，再把结果返回给模型。模型根据结果继续回答或决定下一步动作。

这层结构非常关键。大模型负责理解意图和选择动作，传统程序负责确定性执行、权限控制和记录结果。二者结合，比让模型凭记忆回答更可靠，也比为每一种自然语言表达编写规则更灵活。

Agent到底是什么？

Agent并没有一个完全统一的定义。工程上可以把它理解为：让大模型围绕一个目标，在反馈循环中自主选择并使用工具，直到完成任务或触发停止条件。

一个基础Agent通常包含：

目标
 ↓
观察当前状态
 ↓
规划或选择下一步
 ↓
调用工具执行
 ↓
读取结果并判断
 ↓
继续、调整、请求人工确认或结束

普通对话是一问一答，Agent则可能连续工作很多步。例如“修复这个项目的构建错误”可以被拆成：读取报错、搜索相关代码、判断原因、修改文件、运行测试、分析新结果，再继续修正。

ReAct一类研究把Reasoning与Acting结合起来：模型交替进行推理和行动，根据环境返回的观察结果更新后续决策。今天常见的编程Agent、浏览器Agent和研究Agent，大体都能看到这种循环的影子。

Workflow和Agent的区别

两者经常被混在一起。

Workflow的步骤主要由程序预先规定：先分类，再检索，再生成，失败就转人工。它更稳定、更容易测试，也更适合流程明确的任务。

Agent的步骤主要由模型根据当前状态动态决定。它更灵活，适合无法提前写死路径的开放任务，但成本、延迟和失败方式也更难预测。

1
2
3

固定流程明确、风险较高  ——>  优先Workflow

路径未知、需要探索判断  ——>  考虑Agent

实际系统往往是二者结合：外层使用确定性Workflow控制权限和阶段，在局部环节允许Agent自主搜索、分析和尝试。

Agent为什么还没有成为万能数字员工？

Agent把单次回答的不确定性扩展成了多步行动的不确定性。假设每一步有95%的概率正确，连续执行20个相互依赖的步骤，全部正确的理论概率只有：

1	`0.95 ^ 20 ≈ 35.8%`

真实任务并不满足完全独立的假设，Agent也能够发现并修复部分错误，但这个简单计算说明了一个问题：单步看起来很聪明，不代表长流程一定可靠。

当前Agent常见的困难包括：

1.目标理解偏差。最初理解错一点，后续行动可能越走越远。

2.上下文有限。长任务中的细节会被压缩、遗漏或相互干扰。

3.错误累积。一次错误搜索或工具返回可能污染后续判断。

4.缺少稳定的完成标准。模型可能过早宣布成功，也可能陷入重复尝试。

5.现实环境不断变化。网页、权限、软件状态和接口都可能超出预期。

6.安全风险。提示注入、恶意文档和越权操作会从“答错”升级为“做错”。

因此，可靠Agent系统需要的不只是更强的模型，还需要任务状态、工具协议、最小权限、预算限制、超时与重试、日志、测试、沙箱和人工审批。

多Agent一定比单Agent更强吗？

多Agent系统会给不同模型实例分配角色，例如规划者、研究者、编码者和审查者。它的优势是可以并行探索、隔离上下文，并让不同角色交叉检查。

但多Agent不是免费的能力放大器。它同时增加通信开销、Token成本、信息丢失和协调错误。如果一个Agent加几个工具就能解决问题，拆成五个角色反而可能让系统更慢、更不稳定。

适合多Agent的任务通常具有以下特征：

1.子任务可以真正并行，而且彼此依赖较少。

2.不同子任务需要明显不同的上下文或工具。

3.任务规模足够大，协调成本小于并行收益。

4.需要独立复核，而不是让多个角色重复给出相似答案。

模型数量不是系统智能程度的直接指标。合理的任务边界、共享状态和验证机制，通常比“多开几个Agent”更重要。

应该怎样更有效地使用AI？

1.给目标，也给上下文和验收标准

与其说“帮我优化一下”，不如说明当前问题、目标平台、不能改变的部分，以及怎样才算完成。

目标：降低移动端GPU耗时。
背景：Unity URP，目标设备为中端Android手机。
限制：不能改变最终画面效果，不能增加新的RenderTexture。
验收：GPU耗时至少降低1ms，并解释修改的原理和副作用。

高质量输入的核心不是某种神奇Prompt格式，而是减少任务中的隐含信息。

2.先让AI理解，再让它行动

在复杂代码或文档任务中，可以先要求模型总结现状、列出不确定点和修改范围，确认理解一致后再执行。这样能够减少模型在错误假设上快速工作。

3.把大任务拆成能够验证的阶段

“做一个完整项目”太容易失控，“先梳理需求—建立最小版本—运行测试—补充功能”则每一步都有反馈。AI最擅长在短反馈循环里工作，而不是在没有检查点的情况下长时间自由发挥。

4.让工具提供事实，让模型负责判断

需要最新信息时让它搜索，需要精确计算时让它运行程序，需要确认代码时让它执行测试，需要分析数据时让它读取真实文件。能验证的内容不要只依赖模型记忆。

5.根据风险决定自动化程度

可以把AI操作分成三档：

低风险：搜索、总结、生成草稿，可以自动执行。

中风险：修改代码、批量处理文件，需要测试、差异检查和可回滚机制。

高风险：付款、发布、删除数据、修改生产环境，必须最小权限并保留人工确认。

AI能力越强，权限设计越重要。真正成熟的系统不是让Agent什么都能做，而是让它只拥有完成当前任务所需的权限。

AI接下来会怎样发展？

短期内，AI的发展重点可能不是单纯把聊天回答写得更像人，而是提高完整任务的成功率。

1.从单模态走向原生多模态

文字、图片、声音和视频会逐渐成为统一交互的一部分。AI能够看到问题、听到反馈、解释过程，并生成适合任务的输出形式。

2.从生成结果走向操作环境

AI会更深地进入IDE、浏览器、设计软件、办公套件和操作系统。交互单位会从“一段回答”变成“一组已经完成并可检查的变更”。

3.从追求一次答对走向持续验证

搜索、代码执行、测试、模拟器和形式化规则会成为模型的外部反馈。未来系统的可靠性，很大程度来自模型能否发现自己错了并及时修正。

4.从通用能力走向个人和组织上下文

真正有价值的AI不仅需要通用知识，还要理解项目结构、团队规范、个人偏好和历史决策。这里的关键同时包括长期记忆、数据权限和隐私边界。

5.模型能力逐渐商品化，系统设计更加重要

当不同模型都具备不错的对话、视觉和工具调用能力后，产品差异会更多来自数据质量、工具生态、任务闭环、评估体系、交互体验和安全设计，而不只是模型排行榜上的分数。

总结

大模型对话让自然语言成为通用接口，生图和多模态扩展了AI感知与表达的边界，Agent则尝试把理解转化为真实行动。

这条发展路线可以概括为：

生成语言
   ↓
理解和生成多种信息
   ↓
连接知识与工具
   ↓
围绕目标持续行动

AI正在从一个“回答问题的模型”，变成一层新的计算接口。但它目前最合理的位置，仍然不是完全替代人的黑盒，而是一个速度很快、能力很广、需要目标约束和结果验证的协作者。

会不会写Prompt只是表层技巧。更长期的能力是：能否清楚定义问题、提供必要上下文、拆分任务、设计验证方式，并判断哪些权力可以交给AI。

当生成越来越便宜，提出好问题、识别好结果和为结果负责，反而会变得更加重要。