AI-从大模型对话、生图到Agent

这一轮AI浪潮最容易被看见的变化,是机器突然“会聊天”了。但如果只把大模型理解为更聪明的聊天机器人,就会低估它真正带来的变化。

从文字对话、代码生成,到图片、视频和声音,再到能够操作软件、调用工具、连续完成任务的Agent,AI正在经历一次角色转换:

对话模型:给出答案。

多模态模型:理解并生成不同形式的内容。

Agent:围绕目标采取行动,并根据结果继续调整。

这三者并不是彼此替代的产品,而是一层层叠加的能力。大模型提供理解与推理,多模态扩展感知和表达,工具与Agent系统则把模型接入真实世界。

大模型为什么首先表现为“对话”?

大语言模型的基本训练目标,可以粗略理解为:根据已有上下文,预测下一个最可能出现的Token。

1
2
输入:今天天气很好,适合出去____
输出概率:散步 0.42,游玩 0.21,跑步 0.13……

模型不断重复这个过程,就能生成一段连贯文字。这里的Token不一定是一个完整汉字或单词,而是模型处理文本时使用的基本单位。

2017年的Transformer架构使用Attention,让模型能够根据上下文动态关注不同位置的信息,并且比传统循环网络更容易并行训练。模型规模、数据规模和算力持续增长后,“预测下一个Token”逐渐表现出总结、翻译、写作、编程、问答和一定程度的推理能力。

这件事看起来有些反直觉:一个做概率预测的模型,为什么会像是在理解问题?

因为要准确预测大量不同领域的文本,模型必须在参数中压缩语言规律、概念关系、常见事实和解决问题的模式。它没有像数据库一样保存一份可以精确定位的原文,也不等于像人一样理解世界,但确实形成了一套能够泛化的内部表示。

所以,大模型既不能简单说成“只是在复制粘贴”,也不能直接等同于真正理解一切的智能。

对话模型真正改变了什么?

传统软件要求人适应机器:学习菜单、参数、命令、脚本和固定流程。大模型让自然语言第一次成为一种通用交互界面。

用户不再需要准确知道功能位于哪个按钮下面,而可以直接描述目标:

把这份会议记录整理成待办事项。

分析这段Shader为什么在移动端很慢。

用更容易理解的方式解释这篇论文。

根据报错信息检查项目,并提出修复方案。

这降低了知识和工具的使用门槛。不过,语言足够自然也带来一个问题:人很容易把“表达流畅”误认为“结论可靠”。

大模型生成的是统计上合理的后续内容,不是在内部查询一个永远正确的事实库。当信息缺失、问题含糊或者训练数据中存在冲突时,模型仍可能非常自信地补全一个错误答案,也就是常说的幻觉。

因此,对话模型比较适合:

1.整理、改写、总结已有材料。

2.生成初稿、方案和备选思路。

3.解释知识,辅助学习和头脑风暴。

4.编写、阅读和重构能够被验证的代码。

而涉及医疗、法律、财务、生产权限和不可逆操作时,必须引入可靠资料、验证步骤和人工确认。

从“记忆回答”到“查资料回答”

大模型有知识截止时间,参数里的知识也不方便精确更新。为了回答私有或实时问题,常见做法是RAG(Retrieval-Augmented Generation,检索增强生成)。

它的基本流程是:

1
2
3
4
5
6
7
用户问题

从文档、数据库或网络检索相关内容

把检索结果连同问题交给大模型

模型依据材料组织答案,并附上来源

RAG并没有让模型本身知道更多,而是在回答时给它一本临时打开的参考书。它特别适合企业知识库、项目文档、客服手册和经常更新的资料。

但“接入知识库”不等于自动可靠。如果检索找错了段落,文档已经过期,或者模型忽略了材料中的限制条件,最终答案仍然会错。一个可用的RAG系统,真正困难的部分通常包括文档清洗、切分方式、权限隔离、检索排序、引用定位和效果评估,而不只是把文本存入向量数据库。

生图:AI开始生成像素

文字模型预测下一个Token,图像生成模型则学习图像分布。当前常见的扩散模型,可以粗略理解为两个过程:

训练时,逐步向图片加入噪声,让模型学习如何预测并去除噪声;生成时,从随机噪声出发,根据文字、参考图、姿势或边缘等条件,经过多次去噪得到图片。

1
2
3
随机噪声 → 粗略构图 → 物体轮廓 → 材质与光照 → 最终图像

文本和参考图约束

它不是从素材库里找到一张图片再拼接,而是根据训练中学到的视觉规律生成新的像素组合。但训练数据的来源、版权、风格模仿和人物肖像权,仍然是不能回避的问题。

生图最重要的价值不是“输入一句话就得到完美作品”,而是把视觉创作的试错成本大幅降低。它适合概念探索、情绪板、分镜、构图草案、材质参考、广告变体和游戏前期设计。

实际使用时,比堆砌一长串形容词更有效的方法,是把需求拆成明确维度:

主体:画面里是谁或什么。

场景:主体处于怎样的环境。

构图:景别、机位、主体位置和画面比例。

光照:光源方向、时间、软硬和颜色。

风格:写实、插画、胶片、概念设计等视觉方向。

限制:不要出现的元素,以及需要保持一致的部分。

不过,生成模型对“看起来合理”比对“结构严格正确”更擅长。文字排版、复杂机械结构、精确空间关系、连续镜头的一致性,以及像素级可控修改,仍然需要专业软件、控制条件或人工调整。

多模态:不只是把生图接到聊天框

多模态模型能够处理文字、图片、声音和视频中的一种或多种信息。它带来的变化,不只是模型可以生成更多媒体,而是模型开始拥有更丰富的输入通道。

例如:

看到一张性能分析截图,定位异常DrawCall。

阅读UI设计稿,生成前端结构和样式。

根据语音会议内容,区分说话人并整理结论。

对比一段游戏录屏和策划需求,发现交互差异。

观察软件界面,并判断下一步应该点击哪里。

文本适合表达抽象规则,图像适合传递空间和视觉信息,声音包含语气与时间变化,视频则进一步包含动作和因果顺序。当这些信息进入同一个上下文后,AI就不再局限于纯文字世界。

但多模态也会放大错误来源。图片可能看不清,语音可能识别错误,视频可能漏掉关键帧,模型还可能对视觉内容作出过度推断。因此,模型“看到了”不代表它准确理解了每个细节。

Tool Use:模型开始连接外部世界

大模型本身只能生成内容。要查询实时天气、运行代码、读取项目、发送邮件或修改数据库,就必须调用外部工具。

工具调用通常不是模型直接执行任意操作,而是模型按照约定输出结构化请求:

1
2
3
4
5
6
{
"tool": "get_weather",
"arguments": {
"city": "Shanghai"
}
}

应用程序验证参数、检查权限并执行工具,再把结果返回给模型。模型根据结果继续回答或决定下一步动作。

这层结构非常关键。大模型负责理解意图和选择动作,传统程序负责确定性执行、权限控制和记录结果。二者结合,比让模型凭记忆回答更可靠,也比为每一种自然语言表达编写规则更灵活。

Agent到底是什么?

Agent并没有一个完全统一的定义。工程上可以把它理解为:让大模型围绕一个目标,在反馈循环中自主选择并使用工具,直到完成任务或触发停止条件。

一个基础Agent通常包含:

1
2
3
4
5
6
7
8
9
10
11
目标

观察当前状态

规划或选择下一步

调用工具执行

读取结果并判断

继续、调整、请求人工确认或结束

普通对话是一问一答,Agent则可能连续工作很多步。例如“修复这个项目的构建错误”可以被拆成:读取报错、搜索相关代码、判断原因、修改文件、运行测试、分析新结果,再继续修正。

ReAct一类研究把Reasoning与Acting结合起来:模型交替进行推理和行动,根据环境返回的观察结果更新后续决策。今天常见的编程Agent、浏览器Agent和研究Agent,大体都能看到这种循环的影子。

Workflow和Agent的区别

两者经常被混在一起。

Workflow的步骤主要由程序预先规定:先分类,再检索,再生成,失败就转人工。它更稳定、更容易测试,也更适合流程明确的任务。

Agent的步骤主要由模型根据当前状态动态决定。它更灵活,适合无法提前写死路径的开放任务,但成本、延迟和失败方式也更难预测。

1
2
3
固定流程明确、风险较高  ——>  优先Workflow

路径未知、需要探索判断 ——> 考虑Agent

实际系统往往是二者结合:外层使用确定性Workflow控制权限和阶段,在局部环节允许Agent自主搜索、分析和尝试。

Agent为什么还没有成为万能数字员工?

Agent把单次回答的不确定性扩展成了多步行动的不确定性。假设每一步有95%的概率正确,连续执行20个相互依赖的步骤,全部正确的理论概率只有:

1
0.95 ^ 20 ≈ 35.8%

真实任务并不满足完全独立的假设,Agent也能够发现并修复部分错误,但这个简单计算说明了一个问题:单步看起来很聪明,不代表长流程一定可靠。

当前Agent常见的困难包括:

1.目标理解偏差。最初理解错一点,后续行动可能越走越远。

2.上下文有限。长任务中的细节会被压缩、遗漏或相互干扰。

3.错误累积。一次错误搜索或工具返回可能污染后续判断。

4.缺少稳定的完成标准。模型可能过早宣布成功,也可能陷入重复尝试。

5.现实环境不断变化。网页、权限、软件状态和接口都可能超出预期。

6.安全风险。提示注入、恶意文档和越权操作会从“答错”升级为“做错”。

因此,可靠Agent系统需要的不只是更强的模型,还需要任务状态、工具协议、最小权限、预算限制、超时与重试、日志、测试、沙箱和人工审批。

多Agent一定比单Agent更强吗?

多Agent系统会给不同模型实例分配角色,例如规划者、研究者、编码者和审查者。它的优势是可以并行探索、隔离上下文,并让不同角色交叉检查。

但多Agent不是免费的能力放大器。它同时增加通信开销、Token成本、信息丢失和协调错误。如果一个Agent加几个工具就能解决问题,拆成五个角色反而可能让系统更慢、更不稳定。

适合多Agent的任务通常具有以下特征:

1.子任务可以真正并行,而且彼此依赖较少。

2.不同子任务需要明显不同的上下文或工具。

3.任务规模足够大,协调成本小于并行收益。

4.需要独立复核,而不是让多个角色重复给出相似答案。

模型数量不是系统智能程度的直接指标。合理的任务边界、共享状态和验证机制,通常比“多开几个Agent”更重要。

应该怎样更有效地使用AI?

1.给目标,也给上下文和验收标准

与其说“帮我优化一下”,不如说明当前问题、目标平台、不能改变的部分,以及怎样才算完成。

1
2
3
4
目标:降低移动端GPU耗时。
背景:Unity URP,目标设备为中端Android手机。
限制:不能改变最终画面效果,不能增加新的RenderTexture。
验收:GPU耗时至少降低1ms,并解释修改的原理和副作用。

高质量输入的核心不是某种神奇Prompt格式,而是减少任务中的隐含信息。

2.先让AI理解,再让它行动

在复杂代码或文档任务中,可以先要求模型总结现状、列出不确定点和修改范围,确认理解一致后再执行。这样能够减少模型在错误假设上快速工作。

3.把大任务拆成能够验证的阶段

“做一个完整项目”太容易失控,“先梳理需求—建立最小版本—运行测试—补充功能”则每一步都有反馈。AI最擅长在短反馈循环里工作,而不是在没有检查点的情况下长时间自由发挥。

4.让工具提供事实,让模型负责判断

需要最新信息时让它搜索,需要精确计算时让它运行程序,需要确认代码时让它执行测试,需要分析数据时让它读取真实文件。能验证的内容不要只依赖模型记忆。

5.根据风险决定自动化程度

可以把AI操作分成三档:

低风险:搜索、总结、生成草稿,可以自动执行。

中风险:修改代码、批量处理文件,需要测试、差异检查和可回滚机制。

高风险:付款、发布、删除数据、修改生产环境,必须最小权限并保留人工确认。

AI能力越强,权限设计越重要。真正成熟的系统不是让Agent什么都能做,而是让它只拥有完成当前任务所需的权限。

AI接下来会怎样发展?

短期内,AI的发展重点可能不是单纯把聊天回答写得更像人,而是提高完整任务的成功率。

1.从单模态走向原生多模态

文字、图片、声音和视频会逐渐成为统一交互的一部分。AI能够看到问题、听到反馈、解释过程,并生成适合任务的输出形式。

2.从生成结果走向操作环境

AI会更深地进入IDE、浏览器、设计软件、办公套件和操作系统。交互单位会从“一段回答”变成“一组已经完成并可检查的变更”。

3.从追求一次答对走向持续验证

搜索、代码执行、测试、模拟器和形式化规则会成为模型的外部反馈。未来系统的可靠性,很大程度来自模型能否发现自己错了并及时修正。

4.从通用能力走向个人和组织上下文

真正有价值的AI不仅需要通用知识,还要理解项目结构、团队规范、个人偏好和历史决策。这里的关键同时包括长期记忆、数据权限和隐私边界。

5.模型能力逐渐商品化,系统设计更加重要

当不同模型都具备不错的对话、视觉和工具调用能力后,产品差异会更多来自数据质量、工具生态、任务闭环、评估体系、交互体验和安全设计,而不只是模型排行榜上的分数。

总结

大模型对话让自然语言成为通用接口,生图和多模态扩展了AI感知与表达的边界,Agent则尝试把理解转化为真实行动。

这条发展路线可以概括为:

1
2
3
4
5
6
7
生成语言

理解和生成多种信息

连接知识与工具

围绕目标持续行动

AI正在从一个“回答问题的模型”,变成一层新的计算接口。但它目前最合理的位置,仍然不是完全替代人的黑盒,而是一个速度很快、能力很广、需要目标约束和结果验证的协作者。

会不会写Prompt只是表层技巧。更长期的能力是:能否清楚定义问题、提供必要上下文、拆分任务、设计验证方式,并判断哪些权力可以交给AI。

当生成越来越便宜,提出好问题、识别好结果和为结果负责,反而会变得更加重要。

参考资料

  1. Attention Is All You Need
  2. Denoising Diffusion Probabilistic Models
  3. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
  4. ReAct: Synergizing Reasoning and Acting in Language Models
  5. Building Effective AI Agents