智能体主题分享:DeepSeek、Manus与AI Agent行业现状,附51页PPT

  文王吉伟

  2025 年,全球 AI 领域迎来两大标志性事件:中国团队研发的 DeepSeek-R1 开源模型以“推理成本仅 OpenAI 的3%”引爆开发者生态,而通用智能体 Manus 则以“任务自主执行闭环”刷新公众对 AI 生产力的认知。

  这两项技术突破,不仅标志着 AI Agent(智能体)从实验室走向产业应用,更预示着人机协作模式将迎来根本性重构。

  AI Agent 的本质,是能够感知环境、规划任务并执行行动的智能实体。与传统大模型(如 GPT 系列)相比,其核心差异在于“思考-行动”闭环能力”的构建:大模型聚焦语言处理,擅长生成文本、回答问题,但需依赖人工指令驱动;AI Agent 以 LLM 为“大脑”,整合规划模块、记忆系统与工具接口,可自主调用 API、操作软件甚至跨平台完成任务。

  这种能力跃迁的背后,是技术架构的颠覆性革新。以 DeepSeek-R1 为代表的推理模型,通过纯强化学习(RL)训练突破传统监督微调(SFT)局限,在数学推理(MATH-500 测试 97.3%)、编程竞赛(Codeforces 评级超越 96.3% 人类)等场景展现类人思维。

  Manus 通过多智能体协同架构,将任务拆解、工具调用与结果验证模块化,实现从“用户指令”到“交付成果”的全链路自动化。虽然 Manus 不是技术的创新,却证明了多智能体协作系统的工程可行性,并成功引发了学术、技术、产业、创投等各界对通用智能体的探索与研究热情。

  在大模型与 AI Agent 快速迭代与发展的同时,“模型即应用”模式也在不断被提及。很多人都认为该模式正在终结传统 API 时代,激进之人更认为 2 年之后大模型企业可能就会停止 API 服务。

  DeepSeek 等推理模型对 AI Agent 有什么影响?Manus 为行业带来了哪些启示?AI Agent 行业现状如何?又该怎么应对“模型即应用”带来的行业挑战?

  3 月 29 日,王吉伟频道在「厦门大学数据库实验室」主办的「大数据百家讲坛」上,做了一场题为《DeepSeek、Manus 与 AI Agent 行业现状》的分享,围绕 AI Agent 的概念、技术发展、行业应用现状以及对企业经营的影响进行了一些探讨。

  本文是这次分享的文字整理版,希望能够带给大家一些启发。需要 PPT 的小伙伴,可以在微信公众号「王吉伟」 回复 250329 获取资源。

  一、前言:什么是 AI Agent

  今天我分享的主题是《DeepSeek、Manus 与 AI Agent 行业现状》,分为 5 个部分:

  • 什么是 Al Agent
  • DeepSeek 等推理模型对 Al Agent 的影响
  • Manus 通用智能体带来的行业启示
  • Al Agent 行业现状
  • Al Agent 如何影响企业经营

  在正式开始这个分享之前,有必要先聊一下什么是 AI Agent,便于大家更好地理解后面的内容。

  1、AI Agent 的定义与概念内涵

  在 2023 年 3 月,AutoGPT 横空出世,那时人们开始接触 AI Agent,但对其并不了解。7 月份,OpenAI 的翁丽莲发表了一篇名为《LLM Powered Autonomous AI Agents》的博文,详细介绍了基于大语言模型的 AI Agent 的技术架构,被认为是目前比较理想的技术架构。

  该架构包括基础规划、工具使用等模块,再加上大语言模型,共四个模块,通过使用工具,最后采取行动,基本构成如下图。

  关于智能体的概念,很多组织从不同角度出发,给出了很多定义。比如 IBM 将 AI Agent 定义为一个自主执行任务的系统或程序。Anthropic 最近也对 AI Agent 下了一个简洁定义:AI Agent 是大语言模型动态指导自己的流程和工具使用的系统,保持对完成任务方式的控制。

  现在我们所说的 AI Agent,基本都是基于大语言模型的,也就是 LLM Based Agent。

  目前,业界对复旦大学 NLP 团队提出的定义比较认可,即 AI Agent 是一种能够感知环境、进行决策和执行动作的智能实体。

  在此定义下,AI Agent 主要分为感知、规划和行动三部分。感知后开始规划,做出决策,然后行动。行动完成后,进入观察环境的循环,继续感知,再进一步规划、优化,最后采取更好的行动,这是最简洁的 AI Agent 表达式。

  该表达式称为 PPA,即感知、规划、行动三个词的首字母组合。PPA 表达式虽简单,但包含丰富内容。感知涵盖人体五觉及其他延伸感触;规划包括目标设定、信息收集、分析等;行动则涉及利用工具、合作沟通等,行动本身还可进一步拓展。

  2、还有很多人在问 AI Agent 与大模型的区别

  大模型聚焦语言处理,以文本交互被动响应指令,应用于内容生成等场景;AI Agent 以 LLM 为核心,具备多模态交互和自主执行能力,可完成跨场景复杂任务。

  两者的区别,可以体现于定义与目标、核心能力、应用场景、技术实现、局限性等几个方面,详情见下图。

  3、解决应用落地问题:从单智能体到多智能体

  AI Agent 的终极设计目标是要打造真正自主执行各种任务并能够学习进化的智能体,但限于当前大语言模型及 AI Agent 本身的技术限制,目前还达不到这个目标。

  要解决这个问题,要么实际把大场景跨应用的业务细分化,针对细分场景设计智能体,因此产生了垂直智能体。垂直智能体可以垂直于业务场景,也可以垂直于一行细分领域,但垂直于一个领域的更有可能是多智能体。

  多智能体架构也是智能体在复杂业务场景应用的解决方案,把一个复杂场景分解为多个简单任务,让不同角色的智能体去执行不同的任务,并且这些任务还可以无限的细分下去,让更多的智能体调用不同的工具去执行,进而产生了智能体网络,并衍生出群体智能。

  4、智能体的四种设计方式

  吴恩达教授提出的智能体设计方法有四种:反思(Reflection)、工具使用(Tool Use)、规划(Planning)和多智能体协作(Multi-agent Collaboration),多智能体协作正是其中之一。

  从这四种设计方式而言,现在的大语言模型尤其是推理模型能够反思、规划和进行简单的工具使用,都可以算是智能体。

  5、Agentic workflow

  受限于当年的技术条件与企业复杂应用环境,这些智能体设计方式仍然不能满足企业需求,企业需要的是把大模型和智能体真正融入业务运营的流程中,Agentic workflow 便应运而生。

  Agentic workflow 通过工作流编排把大模型、ERP、CRM 等系统及 API、数据等工具封装为智能体、AI 应用或者解决方案,可以解决大量的业务流程自动化,但仍然需要人工进行各种功能的预制构建,更像是一种 LLM 赋能的低代码工具,感觉这种方式很不 Agent,距离自主智能体越来越远了,是不是?

  6、通用智能体

  技术圈一直都在探索真正的自主智能体,直到前段时间 Manus 的出现,虽然到现在还拿不到邀请码,但它让大家看到了自主智能体的雏形,即便执行一个任务需要几十分钟乃至更长的时间。manus 号称全球第一个通用智能体,这个概念也跟着 manus 火了起来。但一些人并不认同,至于为什么,这点我们后面再讲。

  目前通用智能体(General AI Agent)被看作是一种能够自主执行任务、进行复杂决策并适应多种环境的高级人工智能系统。从当前智能体产品形态来看,可以分为两类:

  一类是被称为 computer use Agent 的类似 Manus 的产品,采用大模型(推理模型+多模态模型)+API 模式,通过屏幕截图来识别屏幕元素,以 API 接口调用各种工具执行任务。

  另一类是在 RPA 等流程自动化工具基础上融合 AI Agent 架构并把 RPA 当作超级工具的 Agent,这类产品基于原有业务流程自动化技术的沉淀,适配大模型、RAG、屏幕识别等技术,实现智能体流畅操作电脑上各种应用。

  受大模型能力、技术架构、工作模式等因素的影响,目前第一类通用 AI Agent 在体验上并不是很好,等待时间长,任务执行能力差,效果不可控。第二类通用 AI Agent 因为 RPA 本身就已经与 PC、手机等终端有了很好的融合与适配,体验上比前者要好很多

  二、DeepSeek 等推理模型对 AI Agent 的影响

  前面简单介绍最近两年 AI Agent 发展的基本路径。其实所有问题的原点,最终还要回到大模型上。LLM Based Agent 的能力与功能取决于 LLM 的性能,如果大模型能力足够强大,智能体也就能做到胜任更多业务场景。当然大模型足够强大了,可能也就不需要智能体了,这个涉及到了模型即应用,后面会讲。

  所以像 DeepSeek R1、通义千问 QwQ-32B、文心一言 X1、混元 T1 这样的高质推理模型的出现,对 AI Agent 性能与功能的提升有着很大的赋能,这里总结了几点:

  DeepSeek 通过提升 AI Agent 的推理决策、规划执行、工具调用、交互拟人化及多模态个性化能力,推动其“五感”交互自然化,为具身智能发展奠基。

  在设计模式上,AI Agent 的反思、工具使用、规划和协作能力因推理模型而增强,能更合理分配任务,提升执行效率。

  应用层面,DeepSeek 支持本地化部署,保障数据隐私,打破标准化场景限制,向战略决策和复杂业务优化延伸。

  开发部署方面,其开源技术降低成本,助力中小开发者创新,提升市场竞争力。通过算法创新和训推范式革新,DeepSeek 降低算力消耗,实现大规模部署的经济可行性。

  用户体验上,DeepSeek 让 AI Agent 对话更自然智能,提升客户服务场景中的复杂查询处理能力。

  产业生态方面,以推理大模型为核心的分层技术生态形成,推动跨行业协作与标准化,企业可快速接入实现数据价值挖掘。

  在市场竞争格局中,DeepSeek 的技术突破助力中国从 AI 规则接受者向标准共治者转变,其开源和国产化优势有望重塑全球 AI Agent 市场格局。

  详情内容,见下图。

  三、Manus 通用智能体带来的行业启示

  1、Manus 的技术构成

  Manus 的技术构成可分为四个核心模块与实现机制:多代理协同架构、模型调度与优化、动态任务调度引擎及安全与稳定性支撑。

  这一架构通过工具链整合优化而非底层模型创新,实现了从任务理解到结果交付的全链路自主执行,同时兼顾效率与成本优势。

  从官方视频展示来看,Manus 可以用于零售与电商、金融、教育与研究等领域的多种应用场景。我在书里介绍了智能体在多个领域的应用,在技术部分提到了相关技术架构,在智能体技术发展趋势和应用发展趋势方面也有介绍多智能体,可以帮助读者理解这种智能体。

  Manus 技术架构通过工具链整合优化而非底层模型创新,虽然大家对它的评价褒贬不一,但作为通用智能体,它还是为行业带来了不少的启示。这些启示,主要体现在产业协作革新、生产力重构、技术创新转型、开源生态协同及伦理与治理挑战等几个方面。

  Manus 的出圈也证明了能够自主执行相对复杂任务的智能体在现阶段是可行的,虽然需要耗费很多的 token 和时间。那么接下来肯定会有更多的同类产品出现,也会进行更多的优化与迭代,再加上大语言模型的快速发展,今年内这类智能体的体验应该就能有很大的提升。

  四、AI Agent 行业现状

  1、应用现状:B端倾向知识库,C端五花八门

  头部企业采用“企业大脑”(企业知识库)架构,整合知识资产沉淀、业务流程数字孪生与安全合规底座,构建端到端智能体服务。中型企业(100-2000 人)采用率最高达 63%,因其灵活性和需求迫切。中小型企业偏好低代码平台,通过可视化界面快速开发自动化工作流。

  非科技行业(如金融、医疗)的采用率(90%)已接近科技行业(89%),显示出 AI Agent 的普适性。

  25% 的企业已将生成式 AI 与 Agent 结合部署,预计到 2027 年这一比例将升至 50% 。中国 500 强企业部署 AI Agent 后,数据准备与分析效率提升 58%,决策耗时减少 70%68。

  小型企业(4 人以下)AI Agent 使用率增长迅速,从 2023 年 9 月的 4.6% 升至 2025 年的 5.8%,反映了小型企业在资源有限下对 AI Agent 的依赖,以降低运营成本和快速扩展 。

  个人用户使用的 AI Agent,主要依赖 Coze、文心智能体等 AI Agent 构建平台上 Agent 或者使用一些厂商提供的开箱即用 AI Agent 成品,部分用户使用一些支持 AI Agent 的 AI 应用客户端,还有一部分懂技术的用户会在本地部署一套包括大模型在内的 AI Agent 系统,比如 Dify、Ragflow 等。

  下图是一些行业应用数据,其中有实际应用数据,也有预测数据。

  2、产品现状

  AI Agent 发展到现在,从企业级角度来其产品形态可以分为通用型、垂直领域专家型、企业级解决方案三个大类别。

  当前的 AI Agent 产品及服务形态,大概有以下几种。其中常见 AI Agent 产品包括聊天助手、编码助手、AI 搜索等。

  当前的 AI Agent 产品,具备几个产品通性。

  聊天机器人如 ChatGPT、Kimi、通义千问等已发展为综合应用类 AI Agent,具备工具使用和推理功能。AI 搜索和编码助手是较成功的 AI Agent 产品,传统搜索引擎和创业项目均有相关产品推出。

  C 端产品主要集中在 AI Agent 构建平台上的用户自建产品,尚未出现大量爆款应用。众多厂商将 AI Agent 开发应用于B端,提供企业级解决方案,企业软件厂商也纷纷推出相关产品。

  目前,B端是 AI Agent 红利的主要领域,因企业对安全、可信、可控智能体的需求,以及大语言模型存在的问题,使得基于软件架构集成 Agent 的企业级产品更受青睐。

  市面上的 AI Agent 多基于特定知识库或数据构建,在问答交互方面表现出色,但在程序联动和操作,如直接操作 ERP 系统等方面存在局限。

  对于 6 个产品通性,具体见 PPT 内容。

  智能体构建平台

  这里重点说一说智能体构建平台。

  智能体构建平台,现在已经成为已经成为智能体应用构建与承载的中流砥柱。大家看到的或者体验的很多智能体基本都是通过一些智能体平台的构建的。

  目前智能体平台更多的还是面向开发者,普通用户想构建适合自身需求的智能体还有一定的门槛,当然直接使用开发者们构建的智能体是没有问题的。

  像 coze、文心智能体、智谱清言等现在创建和使用已经很简单,能够实现一句话创建一个智能体,当然要实现多智能体、工作流等复杂的功能仍旧需要一些时间去学习、理解和应用。所以要想让更多人更简单的构建和使用智能体,还需要进一步降低这个门槛。

  在 AI 应用构建方面,智能体构建平台初步把智能体改造成了基于 LLM 的低\无代码平台,低\无代码平台也正在积极融合 Agent 技术升级为 Agent 构建平台。接下来这类平台都会先向 LLM 低\无代码平台过渡,再慢慢进化为具备更多功能能够构建复杂智能体的平台。

  产品现状:产品动态与发展趋势

  很多问答助手都晋级为能够搜索能调用简单工具的增强型问答助手,成为 AI Agent。

  2 年前王吉伟频道所讲的的“大模型 Agent 化”,现在叫作大语言模型即应用(即服务),是当前的主流话题。

  大模型都具备较强的推理能力后,DeepReasearch 成为大模型 Chatbot 和搜索引擎的标配功能。当然大部分产品是在原有产品上使用了 Agentic RAG 等技术,OpenAI 的 DeepReasearch 则采用了专门训练的模型。

  知识库类的 copilot 产品,目前都具备搜索、文本处理等功能,后面很有可能会迭代出 Agent 模式。

  语音类 Agent 与 web Agent,将会成为今年爆发的新品类。

  在各种新技术的加持下,现在任何应用场景都能构建 AI Agent。

  3、市场格局:大企业不断加码,创业项目不断涌现

  市场由主要科技公司和越来越多的初创公司主导,竞争环境激烈。

  AI Agent 市场正在显著扩展,主要受到自动化和效率需求的推动。marketsandmarkets 报告数据显示,该市场从 2024 年的 51 亿美元增长到预计 2030 年的 471 亿美元,复合年增长率为 44.8% 。

  初创公司和细分市场参与者:CB Insights 市场地图识别出超过 170 家初创公司,包括 Harvey,该公司在 2025 年 2 月以 30 亿美元估值融得 3 亿美元,专注于法律 AI 代理 The AI agent market map。其他值得注意的初创公司包括 CrewAI 和 ServiceNow 等。

  国内外大公司动作频频,有些公司已经取得了不错产品成果与市场进展。头部的大语言模型创业公司,也都在重点开拓 AlAgent 领域。具体见下面两张图。

  随着更多 AI Agent 产品的解决方案推出,越来越多涉及 AI Agent 的公司和团队慢慢浮出水面,行业版图也逐渐清晰。

  国外市场全景图

  左边是 New Economies 在 2024 年 6 月份绘制的市场地图,右边是投资机构 Insight Partners 给出的 2024 年 12 月市场全景图。可以看到从 6 月到 12 月,AI Agent 项目增加了这么多,变化还是蛮大的。半年时间便有大量的 AI Agent 项目出现,并且实现了产品化,可以用于企业与个人的工作与生产。

  这张图中间主体是 Agents 部分,这些公司已经推出了 AI Agent 产品、解决方案或者服务,或者是在原有 AI 产品基础上推出的 AI Agent。其他部分厂商,他们也正在向 AI Agent 过渡,或者已经推出了相关产品或服务,还有一些是从自动化角度切入到 Agent 赛道。

  但不管过去的产品形态怎样,现在他们都在向 Agent 过渡或转型。这些企业既有科技巨头,也有企业服务及自动化领域的名宿,更有大量初创企业。所以,这张图名为 AI Automation & Agents Market Map。

  其实从自动化角度看,包括 LLM 及 AI Agent 等在内的任何类型的 AI 技术带来的都是业务流程的自动化,区别只是自动化程度的高低。

  所以王吉伟频道才在《一本书读懂 AI Agent:技术、应用与商业》中感慨,近几年生成式 AI 和 AI Agent 带来的企业经营管理与范式的颠覆性变革,但无论技术、架构和方案怎么变化,只要抓住业务流程再造与自动化需求这两个点,产业链上所有参与者都能因创造商业价值而获得成功。

  我们不用过多关注技术的变革与颠覆,重要的是在每个技术变革时代善用这些技术去解决问题,那么你就能成为每个时代的弄潮儿。

  国内全景图

  国内的市场情况,王吉伟频道查阅了两份行业报告。左边这张图是甲子光年在 4 月份发布的《中国 AI Agent 行业研究报告》,他们根据当时的市场情况绘制了中国 AI Agent 生态图谱 1.0 版本。当然,这张图也体现了去年国内智能体行业的生态结构。

  右边这张图是 InfoQ 发布的第二季度报告。可以看到智能体产品明显多了。从 4 月到 6 月,一些创业型产品出来了,还有一些大公司也推出了相关产品。当然这是半年前的市场情况,现在的产品要更多。

  4、技术现状

  经过几年的发展,AI Agent 的技术进步依赖于多个核心技术特征,这些特征定义了其功能和应用范围。

  大语言模型(LLM)是 AI Agent 的核心,提供强大的自然语言处理能力,支持多语言和多领域任务。

  AI Agent 具备多模态能力,整合图像、音频和视频处理,适用于智能家居、医疗诊断和内容创作。通过高级规划和推理技术进行自主决策,能够调用外部工具和 API,扩展其功能。记忆和学习机制使其能够存储和检索信息,增强学习能力。技术架构通常包括感知、认知和行动三个组件,支持多种分类和多代理协作。

  同时 AI Agent 技术正朝着多个创新方向发展,以提升性能和用户体验。增强多模态交互、提高自主性和可靠性、多代理协作、边缘计算与端侧部署、可解释性和信任及个性化与适应等都是前沿的发展方向。

  几个当前的热门技术,大家可以多关注。

  Model Context Protocol,一种开放协议,用于标准化应用程序向大型语言模型(LLMs)提供上下文(数据)的方式。MCP 是由 Anthropic 推出的协议,现在得到很多厂商和大模型的支持,就连 OpenAI 和微软最近也支持了。

  • deep reasearch:Deep Research 是 OpenAI 推出的一种研究工具,结合了语言模型和深度搜索能力,用于处理复杂的学术研究任务。
  • Agenic RAG:一种结合检索增强(Retrieval)和生成(Generation)的技术,用于提升 AI Agent 的知识检索和生成能力。
  • Compuer use:AI Agent 调用外部工具(如搜索引擎、数据库、API 等)的能力。
  • GUI Agent:一种能够与图形用户界面(GUI)交互的 AI Agent,通过模拟用户操作来完成任务。

  AI Agent 技术栈

  AI Agent 技术发展到现在,技术生态基本已经成型,用于构建 AI Agent 的各种技术正在不断完善。

  下面图片中,左边是去年7、8 月份投资机构 Aura Ventures 整理的市场全景图。其中涉及到了技术部分,他们通过技术表达的形式把相关公司或者产品列到了这种好难过图中。

  可以看到每一个技术和解决方案下面都列举了一些代表性公司。关于这张图的具体解读,可以参考图书第 15.2.4 节产业格局。

  右边是 Letta 在今年 11 月推出最新技术栈统计。它也是从技术视角以 AI Agent 构建流程的形式,标明哪些技术由哪些技术供应商来提供。单从技术而言,多半年时间又有不少技术公司得到了市场认可。

  在技术栈方面,大家可以重点理解《AI Agents Stack》这张图。左边这张图因为时间比较早可以作为参考,当然通过它可以整体把握 AI Agent 市场结构。

  AI Agent 技术生态

  在文章的开头,我们先介绍了翁丽莲提出的 AI Agent 技术架构。把这个架构图用技术和企业进行具象化,可以看到下面这张由 Activant Capital 绘制的技术供应商角度的 AI Agent 生态系统图,也就是左边这张图。技术视角的架构图,可以帮助我们更好地理解智能体。

  右边是关联技术厂商的一个具象化,它同时也是一个技术成熟与市场增长信念的象限图,每一种技术以及代表厂商都在这个象限中有合适的位置。通过这张图,能看到这些技术及产品的市场发展潜力。

  AI Agent 技术进展

  基于大语言模型的 AI Agent 技术,正在快速发展与迭代。到 2024 下半年,大模型都向多模态发展,同时 10 月份 OpenAI 的 o1 模型开启了后训练时代,可推理、可视觉以及上下文协议等技术的应用,极大地推动了 AI Agent 在更多场景与领域的的应用。现在,很多大企业都推出了推理模型,对于智能体行业的好处前面已经讲过。

  上图的左边部分,是大语言模型发展前景图。图片分为 6 部分,从左到右我简单的上面做了做了注解。短短的两年多的时间里,大模型已经迭代了多次使得 AI Agent 的功能和能力都在不断的提升和增加。

  右边是当前的七种主流 RAG(Retrieval-Augmented Generation,检索增强生成)技术架构图。能够有效解决 AI Agent 长期记忆问题的 RAG 技术,已经在短短的几年内发展出多种技术架构。其中 Agentic RAG 作为新一代技术,正在重塑 AI Agent 的记忆内存。

  AI Agent 技术框架不断推陈出新。这里列举了代表性科技企业微软和谷歌推出的部分 AI Agent 技术框架。这个图表中罗列了微软的 8 种技术架构和解决方案,这只是其中一部分,实际上他们推出的相关技术还有很多。

  包括谷歌也是一样,现在开始重点发力 AI Agent。在技术社区,AI Agent 技术框架更是百花齐放,预计 2025 年就开始卷多智能体、GUI(UI)智能体和端侧智能体了。

  下图是一些 AI Agent 的开源项目与闭源项目。下面的两个表格中列出的是已经推出 AI Agent 技术框架、产品及解决方案的开源与闭源项目。左边是开源项目,右边是闭源项目。

  这些项目来自智能体沙盒技术供应商 e2b 的 Github 仓库 awesome-ai-agents,它通过搜集和提交的方式来累积智能体项目。截至 2024 年 12 月底,开源项目 110 个,闭源项目 105 个。

  当然并不是说目前的 AI Agent 项目只有这些,还有大量相关项目并不在这个名单中。这里只对这些项目做了简单介绍,关于每个项目的具体介绍大家可以到 Github 去查阅。

  5、面临的问题

  虽然 AI Agent 已经逐渐在很多领域实现商用,受限于现阶段的技术、生态、用户接受度等因素,仍然存在一些问题和不足。

  AI 产品存在的不足,这里王吉伟频道总结了 9 点,包括 AI Agent 存在交互能力局限、工程稳定性上存在随机输出和异常处理问题等,详细内容大家可以看下图的左边的表格,我在图书中也有提及。

  AI Agent 应用部署方面也面临着一些挑战,这里直接引用了 langbase《state-of-ai-agents》报告中的调查与总结,详情见上图的右侧图表。这份报告我在之前的文章中分享过,大家可参考下面的文章。

  推荐阅读:十篇 AI Agent 研报,看懂 2025 年全球智能体行业全景,附下载

  具体到当前的 AI Agent 开发与应用上,这些问题与挑战主要包括错误容忍度、记忆与上下文管理瓶颈、模型智能程度的限制、自我评估能力的缺失、工具集成与协调难题、数据相关挑战、鲁棒性与安全性风险等。详情见下图。

  这些问题的解决路径集中在技术优化(如端到端训练强化推理能力)、协议标准化(如 MCP 框架优化)及多学科协作(工具链整合与记忆增强)等方面。

  现在还有一个很明显的趋势:模型即应用(服务),模型本身直接构成最终产品或服务,而非通过应用层(如 API 或第三方软件)二次开发。比如 OpenAI 的 DeepResearch 模型能够端到端自主完成研究报告生成,无需外部工具调用或人工干预,Claude Sonnet 3.7 可直接完成复杂任务(如代码库管理)而非仅作为生成代码的工具,还有很多大模型推出的 DeepResearch 等功能。

  这个趋势,可能会造成 2 个结果:

  API 时代将被终结:大模型厂商(如 OpenAI、DeepSeek)将停止对外提供 API,转为直接提供模型作为产品,这个时间可能也就两年。

  应用层被大模型取代:原有“套壳应用”(Wrappers)会被模型厂商直接集成能力的功能淘汰。

  这个趋势一方面让大模型与智能体的边界越发模糊,另一方面也让很多人担忧智能体未来发展的方向。解决方法是:

  一方面需转向自研模型,另一方面需要垂直领域专用模型的强化学习和推理结合,可直接解决现实场景问题,比如实在 Agent 就以塔斯大模型结合智能屏幕语义理解(ISSUT)和 RPA 技术,通过强化学习动态优化任务执行策略。

  AI Agent 是一种能够感知环境、进行自主理解、决策和执行动作的智能实体。Agentic Workflow 是指通过预定义的多步大型语言模型(LLM)调用静态完成任务的工作流。Agentic AI 是 AI 具备自主性的能力和行为,代表了 AI 所能实现的顶峰——独立行动、学习和适应的能力。

  AI Agent 向 Agentic Workflow 的发展以及 Agentic AI 的兴起,正推动行业效率提升和数字化转型。这些技术改变了企业运营模式,改善了客户体验,并为决策支持和自动化服务带来革命性变化。

  它们也延伸了应用价值链,改变了行业业态,尽管面临技术挑战,但为行业带来了前所未有的发展机遇。

  五、AI Agent 如何影响企业经营

  企业经营以优化流程、管理资源实现盈利与客户增长为目标。AI Agent 可以系通过降本增效、风险管控与组织革新,成为企业竞争力升级的关键引擎,主要通过三个维度影响企业经营:业务运营、战略决策及组织管理。

  当然企业经营是个复杂体系,AI Agent 可以在多个企业经营环节与业务场景进行赋能。

  目前企业应用 AI Agent 主要有三种模式:直接使用、客户端调用 API 和本地私有化部署。

  直接使用适合对数据隐私要求不高、希望快速接入 AI 能力的企业,尤其是中小型企业,可直接利用市场上现有的 AI Agent 服务,如实在 Agent、Operator、Manus 等,或在 Coze 等平台构建个性化 AI Agent。

  客户端调用 API 适用于需将 AI 能力集成到现有系统的企业,通过调用第三方 API 接口,结合客户端工具如 AnythingLLM、Cherry Studio 等,开发智能客服、文档处理助手等应用。

  本地私有化部署适合对数据安全和隐私要求高的大型企业,可在本地环境中部署 AI Agent,使用开源框架或自研技术构建技术闭环,如借助 LangChain、OmniParserV2 等开源项目进行部署。

  尾声:未来寄语

  最后,再简单说几句对智能体行业未来寄语。

  AI Agent 给不会编程的普通人带来了更多机会,让大家能够通过自然语言构建个性化智能体应用,可以通过智能体提高个人生产力,可以把这些应用分享给别人使用,更可以通过智能体创业实现自己的梦想。

  简单地说,接下来就如果要创业,你可能不需要再找一个技术合伙人,只要你了解怎么构建智能体,就能创建一个人的公司,一个超级个体。

  最后用《一本书读懂 AI Agent:技术、应用与商业》封面引用比尔·盖茨一句话结束我今天的分享:AI Agent 将来未来 5 年内彻底改变我们的生活。

  王吉伟频道认为,接下来每个人都应该拥抱 AI Agent 成为时代领跑者,希望大家都能够更全面地认知和使用智能体,快速成为智能体时代的超级个体,快速用 AI Agent 赋能企业增效降本与高效运营。

  全文完

  王吉伟频道新书《一本书读懂 AI Agent:技术、应用与商业》已出版,轻松读懂系统掌握 AI Agent 技术原理、行业应用、商业价值及创业机会,欢迎大家关注。