Multi-Agent创业机会:垂直行业SaaS平台的Agent化改造

张开发
2026/4/17 8:31:37 15 分钟阅读

分享文章

Multi-Agent创业机会:垂直行业SaaS平台的Agent化改造
Multi-Agent创业机会垂直行业SaaS平台的Agent化改造一、 标题之外的引子这是属于技术创业者的「垂直Agent时代」黄金入场券这部分是补充但要先抓住眼球然后才能引出正式的摘要我先抛出几个最近三个月在创投圈、技术圈刷屏的小案例——它们都不是OpenAI DevDay上的明星项目也不是背靠BAT/TMD的大厂实验品而是10人以内团队、3-6个月上线、首月就拿到垂直客户付费、单客年订阅费至少是原SaaS版的3倍的小而美垂直改造项目深圳一家给国内精密注塑厂做「生产排程SaaS」的公司去年还在靠传统APS高级计划与排程算法卖单今年把注塑车间拆成了「设备Agent集群每台注塑机1个、质检Agent、仓储Agent、生产计划调度总Agent、客户需求预判Agent」5个模块上线「智能试模排程」「设备故障预判协同排程」「实时插单智能协调4方资源」3个核心功能老客户转化率超过70%单客年订阅费从原来的12万涨到了48万其中新增了「Agent集群算力维护包」「专属知识库定制包」2项增值服务。杭州一家给外贸B2B服装供应商做「供应链跟单SaaS」的公司原来只有「订单录入、进度跟踪、报表导出」3个基础功能今年上线了「多角色AI跟单员Agent供应商采购助理、工厂车间管理员、物流对接人、外贸客户助理全覆盖支持中英/中法/中日/中德多语言」「面料质检报告AI自动解析与整改建议Agent」「船期/汇率/政策风险预警与自动谈判预案生成Agent」甚至开发了「虚拟外贸展厅互动Agent」首月就有8家来自义乌、东莞的老客户付费升级其中一家年出口额过亿的客户一次性付了2年的专属定制升级费120万。北京一家给连锁便利店做「库存管理SaaS」的公司原来用的是传统的ABC分类法安全库存预警去年冬天还因为北京几场突如其来的大雪导致「暖宝宝缺货3天、关东煮食材积压10万元以上」的投诉事件今年上线了「单店商品需求Agent融合本地天气、商圈人流、周末节假日、周边竞品促销、抖音/小红书种草热度6个维度的实时数据」「区域库存调度总Agent自动协调3公里以内的5家便利店调货」「滞销品自动促销方案生成与落地执行Agent自动生成买一送一、第二件半价、限时秒杀、社群推广的方案直接对接便利店的POS系统、外卖平台、社群管理系统」北京朝阳区的试点门店在今年3-4月的销售额环比增长了22%滞销品损耗率从原来的8.7%降到了2.1%今年已经有300家北京、上海的连锁便利店签约了升级服务。看到这里你是不是想问三个问题为什么这些传统垂直SaaS改造Multi-Agent之后客户愿意花3-10倍的钱为什么这些10人以内的小团队能在3-6个月内上线一个有实际商业价值的Multi-Agent垂直SaaS现在入场做垂直行业SaaS的Agent化改造还有机会吗机会在哪里这篇文章就是要系统性地回答这三个问题——不仅会讲Multi-Agent的核心概念、技术原理、算法框架这些是基础但不是重点我会用通俗易懂的方式讲不会堆砌太多晦涩的数学公式更会讲垂直行业SaaS改造Multi-Agent的创业方法论、技术选型方案、核心功能设计要点、落地踩坑经验、盈利模式创新这些是重点是写给技术创业者看的干货最后还会列出10个我认为2024-2026年最值得入场的垂直行业SaaS改造方向并给每个方向附上具体的改造切入点、MVP功能设计、技术栈推荐。二、 摘要/引言2.1 开门见山一个技术创业者的「焦虑与机会」作为一个在垂直SaaS领域摸爬滚打了8年的技术老兵——我曾参与过3个垂直SaaS项目的创业第一个项目做餐饮外卖供应链死在了美团饿了么的挤压下第二个项目做K12在线教育的作业批改SaaS死在了“双减”政策下第三个项目做跨境电商的跨境物流跟踪SaaS勉强活了下来但现在面临着“增长瓶颈、同质化竞争严重、客户留存率低、客单价上不去”的四大难题——直到去年11月OpenAI DevDay发布了Assistants API v2、GPT-4 Turbo、GPT-4o Mini今年2月Anthropic发布了Claude 3 Opus/Sonnet/Haiku今年3月字节跳动发布了豆包大模型4.0、Coze Pro今年4月腾讯发布了混元大模型Turbo/Pro/Lite、腾讯云智能体平台AgentBuilder今年5月阿里巴巴发布了通义千问3.0 Turbo/Pro、阿里云智能体平台ModelScope Agent我才突然意识到属于垂直行业SaaS技术创业者的「第二春」来了——这就是「Multi-Agent垂直改造」的黄金时代。为什么这么说因为在过去的10年里垂直SaaS的核心竞争力是**「标准化自动化」**——把垂直行业里的一些重复性高、规则明确的工作流程比如订单录入、报表导出、简单的数据分析用标准化的软件实现自动化从而提高客户的工作效率、降低客户的运营成本。但随着移动互联网、云计算、大数据的普及越来越多的垂直SaaS产品都实现了「标准化自动化」同质化竞争越来越严重客户的选择越来越多客户的留存率越来越低客单价也很难再上去——因为客户觉得“你有的功能别人也有而且别人的价格比你便宜”。但现在不一样了——大语言模型LLM的出现尤其是大模型AgentLLM Agent的出现让垂直SaaS的核心竞争力从「标准化自动化」升级到了「个性化智能化自主化协同化」——我们不仅可以把垂直行业里的一些重复性高、规则明确的工作流程实现自动化还可以把一些需要专业知识、需要判断决策、需要多角色协同、需要处理非结构化数据的工作流程比如生产排程的实时调整、供应链风险的预判与应对、法律咨询的初步处理、医疗影像的初步诊断、外贸客户的需求分析与谈判用大模型Agent集群Multi-Agent System实现智能化、自主化、协同化从而给客户带来**「原来不可能实现的价值」**——比如原来需要10个专业人员才能完成的工作现在只需要1个专业人员1个Multi-Agent集群就能完成原来需要1天才能完成的工作现在只需要1分钟就能完成原来需要依赖经验丰富的专家才能完成的工作现在刚入职的新人也能通过Multi-Agent集群完成原来只能处理结构化数据的软件现在可以处理文本、图片、音频、视频、表格、PDF等所有类型的非结构化数据。2.2 问题陈述垂直行业SaaS的「四大痛点」与Multi-Agent的「四大解药」在正式展开之前我先系统性地总结一下当前垂直行业SaaS面临的四大核心痛点以及Multi-Agent可以解决这四大痛点的四大核心优势——这是理解垂直行业SaaS Agent化改造创业机会的基础2.2.1 垂直行业SaaS的四大核心痛点我把当前垂直行业SaaS面临的四大核心痛点总结为**「四难」**个性化难Customization Dilemma垂直行业里的每一个客户都有自己独特的业务流程、独特的管理模式、独特的知识库但传统的垂直SaaS产品为了降低开发成本、提高标准化程度往往只能提供“千人一面”的标准化功能——如果客户需要个性化定制要么需要支付高昂的定制开发费用通常是年订阅费的5-20倍要么需要等待很长的开发周期通常是3-12个月要么只能“削足适履”——改变自己的业务流程来适应SaaS产品的功能。智能化难Intelligence Dilemma传统的垂直SaaS产品主要依靠规则引擎Rule Engine和传统机器学习算法Traditional Machine Learning Algorithms比如线性回归、逻辑回归、决策树、随机森林、XGBoost、LightGBM来实现一些简单的智能化功能比如安全库存预警、简单的客户流失预测——但规则引擎只能处理规则明确、场景固定的问题如果规则发生变化或者场景发生变化就需要手动修改规则传统机器学习算法只能处理结构化数据而且需要大量的标注数据通常需要几万甚至几十万条标注数据才能训练出一个效果不错的模型还需要专业的算法工程师来进行数据清洗、特征工程、模型训练、模型调优、模型部署——这些对于中小微垂直SaaS公司来说都是难以承受的成本。自主化难Autonomy Dilemma传统的垂直SaaS产品主要是**“被动响应”**的——客户需要手动输入数据、手动触发功能、手动查看结果它不会主动地去收集数据、主动地去分析数据、主动地去发现问题、主动地去提出解决方案、主动地去执行解决方案除非你提前设置了非常明确的规则。协同化难Collaboration Dilemma垂直行业里的很多工作流程都需要多角色、多部门、多系统、多企业的协同——比如外贸B2B服装供应链的工作流程就需要“外贸客户、外贸业务员、供应商采购助理、面料供应商、辅料供应商、工厂车间管理员、工厂质检员、物流对接人、货代公司、船公司、海关、税务局”等10多个角色/部门/系统/企业的协同但传统的垂直SaaS产品主要是**“单角色、单部门、单系统、单企业”**的——它只能帮助一个角色完成一部分工作或者把几个角色的工作流程串联起来但它不会主动地去协调不同角色/部门/系统/企业之间的矛盾也不会自动地去处理不同角色/部门/系统/企业之间的信息不对称问题。2.2.2 Multi-Agent的四大核心优势我把Multi-Agent可以解决这四大痛点的四大核心优势总结为**「四能」**能个性化定制Can Be Customized Personally大模型Agent可以通过提示工程Prompt Engineering、检索增强生成Retrieval-Augmented GenerationRAG、微调Fine-Tuning、强化学习Reinforcement LearningRL四种方式快速地适应每一个客户独特的业务流程、独特的管理模式、独特的知识库——不需要支付高昂的定制开发费用不需要等待很长的开发周期甚至客户自己只要懂一点基本的操作就能通过提示工程和专属知识库的添加来实现个性化定制。能实现高级智能化Can Achieve Advanced Intelligence大模型Agent不仅可以处理文本、图片、音频、视频、表格、PDF等所有类型的非结构化数据还可以通过推理能力Reasoning Ability、知识调用能力Knowledge Retrieval Ability、工具调用能力Tool Calling Ability来解决规则不明确、场景不固定、需要专业知识、需要判断决策的复杂问题——而且只需要少量的标注数据甚至不需要标注数据只需要一些高质量的示例数据也不需要专业的算法工程师只需要一些懂提示工程、懂工具开发的技术人员。能实现自主化Can Achieve Autonomy大模型Agent可以通过自主规划能力Autonomous Planning Ability、自主执行能力Autonomous Execution Ability、自主反思能力Autonomous Reflection Ability来实现“主动收集数据→主动分析数据→主动发现问题→主动提出解决方案→主动评估解决方案→主动执行最佳解决方案→主动反思执行结果→主动优化下一次的规划/执行”的闭环——它是**“主动发现、主动解决”**的而不是“被动响应”的。能实现协同化Can Achieve CollaborationMulti-Agent System多智能体系统可以通过角色分配Role Assignment、任务分解Task Decomposition、任务分配Task Allocation、信息共享Information Sharing、冲突协调Conflict Resolution、结果整合Result Integration六个步骤把一个复杂的任务分解成几个简单的子任务然后把这些子任务分配给不同的、具有不同专业知识和不同工具调用能力的Agent去执行最后把这些Agent的执行结果整合起来得到一个最终的解决方案——它可以实现多角色、多部门、多系统、多企业的协同甚至可以实现人机协同Human-Agent Collaboration。2.3 核心价值技术创业者能从垂直行业SaaS的Agent化改造中获得什么作为一个技术创业者你可能最关心的是**“这个方向能不能赚钱能不能赚大钱能不能快速赚钱”**——我可以明确地告诉你能而且是非常能为什么这么说因为垂直行业SaaS的Agent化改造具有**“三大核心商业价值”**客单价的大幅提升Significant Increase in ARPU正如我在开头提到的三个小案例一样——传统垂直SaaS的单客年订阅费通常在几千到几十万之间但经过Multi-Agent改造之后单客年订阅费通常可以提升到原来的3-10倍甚至可以推出“专属定制服务包”“Agent集群算力维护包”“专属知识库定制与更新包”“专属工具开发包”“定期培训与咨询服务包”等增值服务进一步提高客单价。客户留存率的大幅提升Significant Increase in Churn Rate Reduction经过Multi-Agent改造之后垂直SaaS产品给客户带来的价值是**“原来不可能实现的价值”**——客户已经深度依赖你的Multi-Agent集群来完成他们的核心业务流程很难再切换到其他的SaaS产品因为其他的SaaS产品没有经过Multi-Agent改造无法给他们带来同样的价值——客户留存率通常可以从原来的60%-80%提升到90%-95%以上。客户获取成本的大幅降低Significant Reduction in CAC经过Multi-Agent改造之后垂直SaaS产品具有**“很强的口碑传播效应”**——因为客户用了你的产品之后工作效率大幅提升运营成本大幅降低他们会主动地向他们的同行、朋友、合作伙伴推荐你的产品——客户获取成本通常可以从原来的几千到几万之间降低到原来的30%-50%以下。除了这三大核心商业价值之外垂直行业SaaS的Agent化改造还具有**“三大技术创业优势”**门槛低Low Barrier to Entry现在已经有很多成熟的大模型Agent开发平台比如OpenAI Assistants API v2、Anthropic Claude 3 Tools、字节跳动Coze Pro、腾讯云智能体平台AgentBuilder、阿里云智能体平台ModelScope Agent、百度文心一言智能体平台千帆Agent——这些平台已经把大模型的调用、RAG的实现、工具的开发与调用、角色的分配、任务的分解与分配、信息的共享、冲突的协调、结果的整合等复杂的技术问题都解决了你只需要熟悉垂直行业的业务流程、掌握基本的Python编程能力、懂一点提示工程就能在3-6个月内上线一个有实际商业价值的Multi-Agent垂直SaaS MVP产品。天花板高High Ceiling垂直行业的市场规模通常是非常大的——比如国内的精密注塑行业市场规模超过了2万亿元国内的外贸B2B服装供应链行业市场规模超过了5万亿元国内的连锁便利店行业市场规模超过了3万亿元——只要你能在一个垂直行业里占据1%甚至0.1%的市场份额你的公司的估值就可以达到几十亿甚至几百亿元。壁垒高High Moat经过Multi-Agent改造之后垂直SaaS产品的核心壁垒不再是“标准化的功能”而是**“对垂直行业业务流程的深刻理解、专属的垂直行业知识库、专属的垂直行业工具库、大量的垂直行业用户使用数据、经过强化学习优化的Agent集群协同策略”**——这些壁垒是很难被竞争对手复制的因为竞争对手需要花很长的时间去理解垂直行业的业务流程去积累专属的垂直行业知识库和工具库去收集大量的垂直行业用户使用数据去优化Agent集群的协同策略。2.4 文章概述这篇文章将带你从「入门」到「落地」到「创业成功」为了让你系统性地理解垂直行业SaaS的Agent化改造创业机会这篇文章将按照以下的结构展开核心概念篇第三章我会用通俗易懂的方式讲解大模型AgentLLM Agent、多智能体系统Multi-Agent SystemMAS、垂直行业SaaSVertical SaaS、垂直行业SaaS的Agent化改造Agentization of Vertical SaaS这四个核心概念并会用类比的方式把大模型Agent比作“一个刚入职的新人”把Multi-Agent System比作“一个专业的团队”来帮助你理解这些概念还会用markdown表格来对比大模型Agent与传统软件Agent的核心属性维度用mermaid架构图来展示大模型Agent的核心要素组成、Multi-Agent System的概念结构与核心要素组成、大模型Agent与Multi-Agent System的交互关系。技术原理篇第四章我会讲解大模型Agent的四大核心技术能力推理能力、知识调用能力、工具调用能力、自主规划与执行能力的实现原理讲解Multi-Agent System的六大核心技术模块角色分配模块、任务分解模块、任务分配模块、信息共享模块、冲突协调模块、结果整合模块的实现原理讲解Multi-Agent System的三大主流协作模式中心化协作模式、去中心化协作模式、混合协作模式的实现原理并会用latex公式来描述大模型Agent的推理过程、Multi-Agent System的任务分配算法比如拍卖算法、合同网协议用mermaid流程图来描述大模型Agent的自主规划与执行流程、Multi-Agent System的混合协作流程。技术选型篇第五章我会讲解垂直行业SaaS Agent化改造的技术栈选型原则并会从大模型选型、大模型Agent开发平台选型、RAG技术选型、工具开发技术选型、前端开发技术选型、后端开发技术选型、数据库选型、云服务选型这八个方面给你推荐适合中小微技术创业者的技术栈还会用markdown表格来对比主流的大模型、主流的大模型Agent开发平台、主流的RAG技术栈。创业方法论篇第六章这是这篇文章的重点之一——我会总结出一套适合垂直行业SaaS Agent化改造的创业方法论我把它叫做**「V-Agent五步法」**第一步选赛道Choose the Right Vertical我会讲解选赛道的三大核心原则市场规模大、痛点足够痛、数据/知识/工具壁垒容易建立并会列出10个我认为2024-2026年最值得入场的垂直行业SaaS改造方向给每个方向附上具体的改造切入点、MVP功能设计、技术栈推荐、盈利模式建议。第二步找客户Find the Right Early Adopters我会讲解找早期采用者Early Adopters的三大核心渠道原有垂直SaaS的老客户、垂直行业的协会/社群/展会、垂直行业的KOL/KOC并会讲解如何与早期采用者沟通、如何从早期采用者那里获取需求、如何让早期采用者参与到产品的开发过程中来。第三步做MVPBuild the Right Minimal Viable Product我会讲解做MVP的三大核心原则聚焦一个核心痛点、只实现核心功能、快速上线快速迭代并会讲解MVP功能设计的要点、MVP开发的时间规划、MVP测试的方法。第四步商业化Monetize the Product我会讲解垂直行业SaaS Agent化改造的五大主流盈利模式订阅费模式、增值服务模式、定制开发模式、按使用量付费模式、分成模式并会讲解如何定价、如何销售、如何提高客户留存率。第五步规模化Scale the Product我会讲解规模化的三大核心方向产品的标准化与规模化、市场的拓展与规模化、团队的建设与规模化并会讲解规模化过程中的常见问题、如何解决这些问题。落地踩坑经验篇第七章这也是这篇文章的重点之一——我会结合我自己参与的第三个项目跨境物流跟踪SaaS的Multi-Agent改造的经验以及我采访的另外5个垂直行业SaaS Agent化改造项目的创始人的经验总结出垂直行业SaaS Agent化改造过程中的10大常见踩坑点并会给每个踩坑点附上具体的解决方案。案例研究篇第八章我会选择开头提到的三个小案例中的一个深圳那家给国内精密注塑厂做生产排程SaaS的公司进行深入的案例研究——我会介绍这家公司的背景、原来面临的问题、Multi-Agent改造的具体方案、核心功能的实现源代码、改造后的效果、创始人的经验教训。行业发展与未来趋势篇第九章我会用markdown表格来梳理垂直行业SaaS的发展历史、大模型Agent的发展历史、垂直行业SaaS Agent化改造的发展历史并会讲解垂直行业SaaS Agent化改造的五大未来趋势从「单模态Agent」到「多模态Agent」、从「封闭环境Agent」到「开放环境Agent」、从「弱自主化Agent」到「强自主化Agent」、从「人机协同辅助」到「人机协同主导」、从「标准化Agent集群」到「个性化Agent集群定制平台」。结论与行动号召篇第十章我会简要回顾这篇文章的主要内容再次强调垂直行业SaaS Agent化改造的创业机会的重要性然后给你一个具体的行动号召——如果你是一个技术创业者或者你正在考虑创业那么请你从今天开始按照我在「V-Agent五步法」中提到的第一步「选赛道」选择一个你熟悉的垂直行业然后开始你的Multi-Agent垂直改造创业之旅。附加部分我会提供参考文献/延伸阅读、致谢、作者简介。三、 核心概念篇从「刚入职的新人」到「专业的团队」——理解Multi-Agent与垂直SaaS改造的本质本章核心内容要素核心概念、问题背景、概念结构与核心要素组成、概念之间的关系——核心属性维度对比markdown表格、ER实体关系mermaid架构图、交互关系mermaid架构图3.1 引言为什么要先讲核心概念很多技术创业者在看到OpenAI DevDay或者Anthropic Claude 3的发布会之后就迫不及待地开始写代码、做产品——但他们往往忽略了一个最基本的问题「我到底要做什么我做的东西的本质是什么」我见过很多这样的技术创业者——他们做出来的Multi-Agent产品要么是「一个大模型聊天机器人的翻版」要么是「几个大模型聊天机器人的简单拼接」要么是「没有任何实际商业价值的Demo」——根本无法解决垂直行业客户的实际问题更不用说拿到客户的付费了。所以在正式展开技术原理、技术选型、创业方法论之前我必须先花足够的时间把大模型AgentLLM Agent、多智能体系统Multi-Agent SystemMAS、垂直行业SaaSVertical SaaS、垂直行业SaaS的Agent化改造Agentization of Vertical SaaS这四个核心概念讲清楚——只有理解了这些概念的本质你才能做出有实际商业价值的Multi-Agent垂直SaaS产品。3.2 核心概念一大模型AgentLLM Agent——一个「拥有专业知识、会用工具、会自主思考、会自主行动」的刚入职新人3.2.1 问题背景传统的大模型应用有什么局限性在大模型出现的最初阶段2022年底ChatGPT发布到2023年中GPT-4发布之前大多数的大模型应用都是**「大模型聊天机器人的翻版」**——也就是在ChatGPT的基础上加上一个垂直行业的知识库RAG然后就变成了一个「垂直行业的AI助手」比如医疗AI助手、法律AI助手、教育AI助手。但这些「垂直行业的AI助手」有什么局限性呢我把它们总结为**「三不会」**不会用工具Can’t Use Tools它们只能回答你提出的问题或者根据你提供的知识库生成一些文本内容但它们不会主动地去调用外部工具比如天气查询工具、计算器工具、数据库查询工具、API调用工具、浏览器搜索工具、代码执行工具来解决更复杂的问题——比如你问一个「医疗AI助手」「我今天在北京体温38.5度咳嗽流鼻涕应该怎么办」它只能根据你提供的医疗知识库给你一些建议但它不会主动地去查询北京今天的天气、不会主动地去查询你家附近的医院的营业时间、不会主动地去帮你预约挂号。不会自主思考Can’t Think Autonomously它们只能被动地响应你提出的问题但它们不会主动地去发现问题、不会主动地去规划解决问题的步骤、不会主动地去反思解决问题的结果——比如你问一个「法律AI助手」「我想写一份劳动合同应该怎么写」它只能根据你提供的法律知识库给你一份劳动合同的模板但它不会主动地去询问你的公司的性质、你的员工的职位、你的员工的薪资待遇、你的员工的工作时间、你的公司的所在地的劳动法律法规等信息也不会主动地去根据这些信息修改劳动合同的模板更不会主动地去帮你检查劳动合同的模板是否符合当地的劳动法律法规。不会自主行动Can’t Act Autonomously它们只能生成一些文本内容或者代码但它们不会主动地去执行这些文本内容或者代码——比如你问一个「教育AI助手」「我想给我的学生出一份数学试卷应该怎么出」它只能根据你提供的数学知识库给你一份数学试卷的内容但它不会主动地去把这份数学试卷的内容导入到你的在线教育系统中也不会主动地去帮你批改学生的数学试卷。3.2.2 核心概念什么是大模型AgentLLM Agent为了解决传统大模型应用的「三不会」局限性2023年中之后大模型AgentLLM Agent的概念开始流行起来——那么到底什么是大模型Agent呢不同的人对大模型Agent有不同的定义——我比较喜欢OpenAI的联合创始人Andrej Karpathy的定义「大模型Agent是一个由大语言模型LLM作为大脑的智能体它拥有感知环境Perceive the Environment、推理规划Reason and Plan、决策执行Decide and Act、反思优化Reflect and Optimize的四大核心能力它可以通过调用外部工具External Tools来与环境交互也可以通过检索增强生成RAG来获取专业知识。」但这个定义还是有点太技术化了——为了让你更容易理解我用一个类比的方式来定义大模型Agent「大模型Agent就像一个刚入职的新人——他有一个聪明的大脑LLM他可以通过学习公司的规章制度和业务手册RAG来获取专业知识他可以通过使用公司的各种办公软件和设备External Tools来完成工作任务他可以自主地思考如何完成工作任务他可以自主地执行工作任务他还可以在完成工作任务之后自主地反思自己的工作表现然后优化下一次的工作方法。」3.2.3 概念结构与核心要素组成大模型Agent的「四大核心模块」根据Andrej Karpathy的定义以及我对大模型Agent的理解我把大模型Agent的概念结构与核心要素组成总结为**「四大核心模块」——我用一个mermaid架构图**来展示渲染错误:Mermaid 渲染失败: Parse error on line 36: ... Tools_Perceive; %% RAG可以通过感知工具获取外部知识库的数 -----------------------^ Expecting SEMI, NEWLINE, EOF, AMP, START_LINK, LINK, LINK_ID, got NODE_STRING接下来我会详细讲解大模型Agent的**「四大核心模块」**3.2.3.1 核心模块大脑LLM大模型Agent的核心是大语言模型LLM——它就像刚入职新人的大脑负责处理所有的信息、进行所有的推理、做出所有的决策。目前主流的大语言模型有很多——比如OpenAI的GPT-4o、GPT-4 Turbo、GPT-4o MiniAnthropic的Claude 3 Opus、Claude 3 Sonnet、Claude 3 Haiku字节跳动的豆包大模型4.0、豆包大模型4.0 Turbo腾讯的混元大模型Turbo、混元大模型Pro、混元大模型Lite阿里巴巴的通义千问3.0 Turbo、通义千问3.0 Pro、通义千问3.0 Lite百度的文心一言4.0 Turbo、文心一言4.0 Pro等。在选择大语言模型作为大模型Agent的大脑时你需要考虑五个核心因素能力Capability比如推理能力、多模态处理能力、知识调用能力、工具调用能力、上下文窗口大小等。价格Price比如输入价格、输出价格、调用次数限制等。速度Speed比如响应时间、并发处理能力等。安全性Security比如数据隐私保护、内容审核、合规性等。可用性Availability比如是否支持私有化部署、是否有完善的API文档、是否有良好的技术支持等。我会在第五章技术选型篇中用markdown表格来详细对比这些主流的大语言模型。3.2.3.2 支持模块1感知环境Perceive感知环境模块负责让大模型Agent感知外部环境的信息——它就像刚入职新人的眼睛、耳朵、鼻子、手等感官器官。感知环境模块主要包括两个子模块检索增强生成模块RAG负责让大模型Agent获取专业知识——它就像刚入职新人的公司规章制度和业务手册或者是刚入职新人的图书馆。RAG的核心思想是在大模型生成回答之前先从一个外部的专属知识库中检索出与用户的问题相关的信息然后把这些信息作为上下文Context一起输入给大模型最后大模型根据这些上下文和自己的预训练知识生成回答。RAG的主要作用是解决大模型的「知识截止日期」问题、解决大模型的「幻觉Hallucination」问题、让大模型Agent适应垂直行业的专业知识。感知工具Perception Tools负责让大模型Agent获取外部环境的其他信息——它就像刚入职新人的办公软件和设备比如扫描仪、录音笔、手机、电脑。感知工具主要包括多模态解析工具比如图片解析工具可以识别图片中的文字、物体、场景等、音频解析工具可以将音频转换成文字也可以识别音频中的说话人、情感等、视频解析工具可以将视频转换成文字也可以识别视频中的物体、场景、动作等。API数据获取工具比如天气查询API、股票查询API、商圈人流查询API、抖音/小红书种草热度查询API、海关数据查询API、物流轨迹查询API等。浏览器搜索工具比如Google Search API、Bing Search API、百度搜索API等——可以让大模型Agent获取最新的、未包含在预训练知识和专属知识库中的信息。数据库查询工具比如SQL查询工具、NoSQL查询工具等——可以让大模型Agent查询客户的内部数据库中的信息比如订单信息、客户信息、库存信息等。3.2.3.3 支持模块2推理规划与决策Reason, Plan Decide推理规划与决策模块负责让大模型Agent自主地思考如何完成工作任务、做出所有的决策——它就像刚入职新人的思维方式、工作方法、经验教训。推理规划与决策模块主要包括三个子模块提示工程模块Prompt Engineering负责定义大模型Agent的角色、目标、行为准则、输出格式等——它就像刚入职新人的岗位说明书、工作目标、公司的规章制度。提示工程是大模型Agent开发中最重要的环节之一——一个好的提示可以让大模型Agent的能力发挥到极致一个不好的提示可以让大模型Agent的能力大打折扣。提示工程的主要方法有角色提示Role Prompting、目标提示Goal Prompting、示例提示Few-Shot Prompting、思维链提示Chain-of-Thought PromptingCoT、思维树提示Tree-of-Thought PromptingToT、ReAct提示Reasoning Acting Prompting等。记忆模块Memory负责让大模型Agent记住过去的对话、过去的工作任务、过去的经验教训等——它就像刚入职新人的大脑的记忆功能。记忆模块主要包括三种类型的记忆短期记忆Short-Term Memory也叫上下文记忆Context Memory——负责记住当前对话或者当前工作任务中的最近的信息比如最近的10轮对话、最近的5个工作步骤。短期记忆的大小通常受限于大模型的上下文窗口大小比如GPT-4o的上下文窗口大小是128K tokensClaude 3 Opus的上下文窗口大小是200K tokens。长期记忆Long-Term Memory负责记住过去的所有对话、过去的所有工作任务、过去的所有经验教训等——它就像刚入职新人的笔记本电脑或者云盘。长期记忆的大小通常不受限制——我们可以使用向量数据库Vector Database比如Pinecone、Chroma、Weaviate、Milvus来存储长期记忆的向量表示然后在需要的时候通过相似度检索Similarity Search来检索出相关的长期记忆。工作记忆Working Memory负责记住当前工作任务的规划步骤、当前工作任务的执行进度、当前工作任务的中间结果等——它就像刚入职新人的草稿纸或者白板。工作记忆的大小通常也受限于大模型的上下文窗口大小。推理模块Reasoning负责让大模型Agent进行复杂的推理——它就像刚入职新人的逻辑思维能力。推理模块的主要方法有思维链Chain-of-ThoughtCoT、思维树Tree-of-ThoughtToT、思维图Graph-of-ThoughtGoT、ReActReasoning Acting、Self-Consistency自我一致性、Reflexion反思等。我会在第四章技术原理篇中用latex公式和mermaid流程图来详细讲解这些推理方法的实现原理。3.2.3.4 支持模块3执行与输出Act Output执行与输出模块负责让大模型Agent执行决策、输出结果——它就像刚入职新人的手和嘴巴。执行与输出模块主要包括两个子模块执行工具Execution Tools负责让大模型Agent执行决策、与外部环境交互——它就像刚入职新人的办公软件和设备比如打印机、复印机、传真机、电话、邮件客户端。执行工具主要包括代码执行工具比如Python代码执行工具、JavaScript代码执行工具等——可以让大模型Agent执行自己生成的代码比如数据分析代码、可视化代码、自动化脚本代码。数据库写入工具比如SQL写入工具、NoSQL写入工具等——可以让大模型Agent将执行结果写入到客户的内部数据库中。API调用工具比如POS系统对接API、外卖平台对接API、ERP系统对接API、CRM系统对接API、短信发送API、邮件发送API等——可以让大模型Agent与客户的外部系统交互执行具体的业务操作比如下单、发货、发送短信、发送邮件。浏览器操作工具比如Selenium、Playwright等——可以让大模型Agent自动操作浏览器完成一些需要人工操作的任务比如预约挂号、网上购物、数据爬取。输出模块Output负责让大模型Agent将执行结果输出给用户或者其他Agent——它就像刚入职新人的嘴巴可以说话、手可以写报告、画图表。输出模块主要包括文本输出比如回答用户的问题、生成工作报告、生成合同模板、生成邮件内容、生成短信内容等。多模态输出比如图片输出可以生成数据分析图表、可以生成产品设计图、音频输出可以生成语音回答、可以生成音乐、视频输出可以生成短视频、可以生成教学视频等。3.2.4 核心属性维度对比大模型Agent vs 传统软件Agent在大模型Agent出现之前其实已经有传统软件AgentTraditional Software Agent的概念了——传统软件Agent是指“一个驻留在特定环境中的计算机程序它能够自主地感知环境的变化自主地做出决策自主地执行行动以实现自己的目标”——比如我们手机上的语音助手比如Siri、小爱同学、小度、我们电脑上的杀毒软件、我们网站上的客服机器人等。那么大模型Agent和传统软件Agent有什么区别呢我用一个markdown表格来对比它们的10个核心属性维度核心属性维度大模型AgentLLM Agent传统软件AgentTraditional Software Agent核心驱动方式大语言模型LLM 数据驱动规则引擎Rule Engine 硬编码驱动推理能力具有强推理能力——可以进行复杂的逻辑推理、因果推理、常识推理、类比推理等具有弱推理能力——只能根据预先设定的规则进行简单的推理知识获取方式预训练知识 RAG专属知识库 浏览器搜索工具——可以获取最新的、广泛的、专业的知识只能获取预先设定的规则和预先存储的结构化数据——无法获取最新的、非结构化的知识工具调用能力具有强工具调用能力——可以自主地选择合适的工具、自主地组合多个工具、自主地调试工具的参数具有弱工具调用能力——只能根据预先设定的规则调用预先设定的工具自主规划能力具有强自主规划能力——可以自主地将一个复杂的任务分解成几个简单的子任务、自主地规划子任务的执行顺序、自主地调整规划具有弱自主规划能力——只能根据预先设定的流程执行任务——无法自主地分解任务、无法自主地调整规划

更多文章