首页 > 编程笔记 > 通用技能 阅读:16

什么叫AI智能?(非常详细)

智能体并非大模型时代的产物,其概念早在 AI 学科初创阶段便已被提出。

在 AI 发展的早期,智能体的定义较为抽象,通常被描述为一种能够感知环境、通过推理做出决策并采取行动以实现特定目标的实体,具有“感知—推理—行动”能力,如下图所示。


20 世纪 80 年代至 90 年代,人们对智能体的研究逐步深入,其以专家系统、符号系统等形式出现,其原理主要是通过规则与知识库,模拟专家的决策过程。

这些智能体通常具有计算能力受限、数据量不足、环境适应性较差等问题,从而限制了在实际环境中的应用。这时的智能体技术研究大多停留在理论探索阶段与受限的小规模应用场景。

整体来说,在深度学习出现之前,智能体面临着各种显著瓶颈。比如,依赖于规则很难覆盖更多场景、泛化能力非常有限、语言与交互能力薄弱等。

尽管存在这些限制,但智能体的基本理念——具有自主感知环境、自主推理与决策、自主行动的能力,始终被学术界与工业界视为 AI 的重要组成部分,持续推动着AI技术演进。

直到近年来,LLM(Large Language Model,大语言模型,简称为大模型)的出现,重塑了智能体的技术范式,为其在更广泛的场景中应用提供了新的可能性。

大模型时代的智能体

随着 Transformer 架构在 2017 年出现,以及以 GPT-3.5、GPT-4 为代表的大模型迅速发展,人们对智能体的研究热情爆发式增长。大模型时代的智能体,不再局限于传统的规则和符号系统,而是具备了更强的理解与泛化能力、更丰富的知识库、更复杂的推理机制及更强的记忆能力,从而能够完成更复杂的任务。

以 GPT、Claude、DeepSeek 为代表的大模型,赋予了智能体以下 3 个革命性的能力。

1) 自主推理与规划

通过以链式思考(Chain-of-Thought)为代表的提示范式,智能体可以把复杂任务拆解为子任务。

例如,当用户输入“帮我规划东南亚三日游”时,智能体自动生成行程规划→景点调研→预算评估的推理链条,并在此基础上进一步生成行动步骤。

2) 推理与工具使用

借助函数调用(Function Calling)或者推理—行动(ReAct)范式,智能体能推理并使用工具(Tool)完成实时操作。

例如,先调用 Google API 获得位置信息,再通过图像模型生成旅游路线图等;工具使用也是智能体与聊天机器人相比最核心的能力。现在,智能体不仅有聪明的“大脑”(大模型),还有灵活的手和脚(工具)。

3) 记忆与知识库检索

结合向量数据库的存储与语义检索能力,再加上大模型的理解能力,智能体可以实现跨会话的上下文继承与长期记忆。同时,结合 RAG(Retrieval-Augmented Generation,检索增强生成)技术的知识库检索,智能体可以更聪明地针对不同的使用者与不同的环境做出个性化的决策。

如果说大模型像一位博览群书的智者,智能体就像这个智者的一个具有极强的记忆与办事能力的管家。它们会根据你的需求,把任务拆解成多个子任务,并主动找到资源或工具来完成。比如:

“对比A公司与我公司产品的差异,把报告发送到我的邮箱。”


智能体会借助大模型规划任务步骤并执行:
  1. 从互联网上搜索A公司的产品信息(使用 Web 搜索工具);
  2. 从企业知识库中检索我公司的产品信息(使用本地 RAG 工具)
  3. 设计并生成对比报告(借助大模型辅助完成);
  4. 发送邮件到邮箱(使用邮件发送工具)。

可以看到,基于大模型的智能体,把强大的语言模型和一套可以主动行动的机制结合起来,让大模型不仅能“懂”、能“想”,而且会“做”。

一个典型的基于大模型的智能体的工作范式如下图所示:


所以,一个现代的基于大模型的智能体通常会由大模型、工具(Tool)、记忆(Memory)等部分组成。有了具备超强理解能力的大模型做“大脑”,智能体才具备了更多的想象力并蓬勃发展,被一致认为是未来重要的 AI 应用形式之一。

两种类型的智能体系统

智能体仍然是一个高速发展的 AI 应用形式。尽管在整体概念与发展方向上,大多数企业或组织已经达成一致,但是智能体的类型在划分上目前并没有权威的标准,处于“百花争鸣”的状态。

在诸多对智能体的定义与划分上,Anthropic 公司(也就是提出 MCP 的公司)在 2024 年发表的文章“Build Effective Agents”(《构建有效智能体》)中提出的观点是笔者认为比较清晰且务实的。

Anthropic 公司把我们目前所说的智能体统称为“智能体系统”(Agentic System),并把它从架构上分成两类(如下图所示)。

1) Workflow(工作流)

这也称为 Agentic Workflow。这一类智能体系统通常具备明确的、预先编排的任务路径,通过定义好的流程、步骤与工具链实现特定目标。其优点是具有更好的可预测性且结果更可控,更适用于企业中需要借助大模型提升智能化且相对固化的业务流程,比如一个标准化的数据抽取与分析流程。

在工作流中最常见的构建块(Building Block)是大模型调用(LLM Call)。Anthropic 公司认为,随着大模型自身能力增强,这里的大模型调用可以是增强型的大模型调用(Augmented LLM Call)。增强型的大模型调用不再是简单的你问我答,还可以带有简单的知识检索与工具使用能力,或者你可以认为,增强型的大模型调用是以一种“微缩版”的智能体形式参与到一个更大的工作流中。

比如,一个典型的顺序型模式的工作流(如下图所示)包含了 3 个增强型的大模型调用。

2) Agent(智能体)

这被称为真正的、最理想化的智能体系统。它强调自主性与灵活性,通过动态推理、自主决策、与环境交互实现目标。

与 Workflow 相比,Agent 适合更开放的环境,适合更通用、更动态、更难以预测的任务。比如,面向个人的通用型助手,因为你无法简单地穷举并编排出所有可能的任务流程。

既然 Agent 可以更自主地规划并完成任务,为什么还需要 Workflow 呢?答案就是大模型的能力还远远不够。

即使当前大模型的理解与推理能力已经非常令人惊艳,但对于人类任务的复杂性,也仍然不够。在一些模拟人类任务的 AI 准确率测试中,大模型的准确率最高仅能达到接近人类的 50%。所以,这种“黑盒”Agent的不确定性,在很多复杂场景特别是关键应用中是致命的。

正因为如此,Workflow 目前作为有效的补充很有必要:一种遵循预定义的工作流程,但仍然会以大模型为核心来完成多步骤任务的系统。这是一种牺牲灵活性换来可靠性的做法。

最后,用一个比喻来总结这两种类型的智能体系统。Workflow 像一个听话的员工,会按照你设定的工作步骤来完成任务,在完成任务的过程中会借助大模型提升智能;Agent 则更像一个被赋予了足够权限的代理人,你给 Agent 安排任务,Agent 会借助大模型自主规划任务步骤并完成。它们的共同点是,都需要借助工具等来提升自己的行动能力。

智能体面临的挑战与发展趋势

当前,各种类型的智能体已经开始涌现并逐渐获得应用:
然而,我们必须认识到,目前的智能体仍处于技术积累和成长阶段。众多智能体平台和商店所提供的“产品”主要集中在个人助理、娱乐、写作等对可靠性要求不那么严格的领域。在真正的生产力应用领域,智能体仍面临诸多挑战。其中,核心问题之一是大模型的局限性。在那些对准确性、可预测性和可追溯性要求极高的场景中,大模型尚不能完全满足需求。任务步骤规划的错误、不恰当的建议、涉及风险的内容及不确定的输出结果等,都表明大模型仍需持续进化。

尽管智能体尚处于发展的早期阶段,但是其未来的潜力是巨大的。下面简单展望一下其发展趋势。

1) 更强的自主性与智能化

随着技术不断进步,智能体将具备更强大的人类意图理解、逻辑推理,以及复杂任务处理能力。这将使它们能够在更多场景下自主做出决策,并执行多样化任务。

2) 深度行业化与定制化

越来越多的领域和行业将定制自己的智能体。例如,IT行业的开发助手、医疗领域的诊断助手、智能家居领域的家庭助手,以及智能实体机器人等。

3) 更强的个性化与人性化

智能体将拥有更强大的个性化能力,通过与用户长期互动学习用户的习惯、个人信息及兴趣偏好,从而提供更加贴心的服务。

4) 持续学习与自适应能力

智能体将具备持续学习的能力,能够根据环境变化和新数据自我调整与优化,不断提高智能水平。

5) 重视伦理与法规考量

随着智能体广泛应用,人们对隐私、安全、伦理的关注将推动相关法规和标准的制定,确保 AI 技术负责任的发展。

相关文章