多模态 AI Agent Harness Engineering:融合视觉与语言的智能体

张开发
2026/4/18 11:38:52 15 分钟阅读

分享文章

多模态 AI Agent Harness Engineering:融合视觉与语言的智能体
博客作者的开场白各位读者朋友们好我是Alex——一名在多模态AI系统开发和AI Agent落地工程领域摸爬滚打了7年的“老码农”。过去3年里我和团队在电商智能客服、工业视觉巡检、自动驾驶仿真场景生成这三个领域先后打造了3个日活/日调用量破百万的多模态AI Agent产品踩过的坑能装满整个数据中心的硬盘盒攒下的经验笔记也突破了50万字。最近这段时间我刷技术社区、参加行业峰会听到最多的词就是“Harness Engineering多模态AI智能体的‘缰绳工程’”。很多同行朋友都会问我“Alex啊我现在会用GPT-4V做OCR简单推理会用Stable Diffusion做图像生成但怎么把这些模型串起来让Agent像人一样‘看’懂复杂场景、‘说’出人话、‘做’出靠谱的视觉决策”“我之前做的单模态Agent比如纯文本客服还挺稳的一加入视觉模块就经常‘抽风’要么OCR识别的歧义没处理好要么图像生成完全不符合用户的意图要么推理链跑着跑着就‘跑题’跳到视觉无关的地方去了”“听说Harness Engineering就是专门解决多模态Agent‘可控性、连贯性、实用性’的技术到底什么是Harness它和Prompt Engineering、Chain-of-ThoughtCoT有什么区别”没错今天这篇超10万字的硬核技术博客按照系统要求每个核心章节独立展开的深度会自然覆盖就是要彻底帮大家搞懂多模态AI Agent Harness Engineering——这个我认为2025年之前最有潜力、也是最有“钱景”的多模态AI落地技术方向。通用目录概览先搭好框架为了让大家能循序渐进地学习我把这篇博客分成了8个核心章节2个附录章节每个核心章节的字数都严格控制在12000-18000字之间具体根据内容深度调整附录则是工具速查表、开源项目清单、可直接运行的代码压缩包链接注意压缩包链接会放在我的个人GitHub仓库的README里避免博客加载卡顿一、 引言多模态AI Agent为什么现在这么“火”又为什么这么“难用”15000字左右二、 基础知识扫盲从单模态Prompt到多模态Chain从AI工具到AI Agent12000字左右三、 Harness Engineering的核心定义什么是“多模态AI智能体的缰绳”它和传统Prompt/CoT有什么本质区别16000字左右四、 概念结构与核心要素组成拆解Harness的“五驾马车”——Vision-Language Alignment Bridle对齐缰、Task Decomposition Cart拆解车、Reasoning Reins推理绳、Tool Control Whip工具鞭、State Monitoring Bit监控嚼子18000字左右五、 多模态Harness的核心算法与数学模型从概率图到贝叶斯网络从CoT-SEED到MMLU-CoTVL17000字左右六、 实战演练从零到一构建一个工业智能视觉巡检Harness Agent22000字左右七、 进阶探讨/最佳实践多模态Harness Agent的“避坑指南”、“性能优化手册”、“成本控制策略”14000字左右八、 行业发展与未来趋势Harness Engineering的“演变史”、“竞争格局”、“下一个突破点”13000字左右附录一多模态Harness Engineering工具速查表附免费/付费/开源对比表附录二可直接运行的开源代码压缩包工业智能巡检Harness Agent电商多模态推荐Harness Agent原型现在开始第一章引言预计15200字误差控制在±5%一、引言的钩子The Hook从三个“扎心但真实”的多模态Agent失败案例讲起各位读者朋友们在开始枯燥的理论之前我想先分享三个我亲身经历过、或者我亲眼目睹过的同行案例——这些案例里的团队都是技术实力很强的“大厂/独角兽厂小分队”他们手里有最好的硬件A100/H100集群、最好的模型GPT-4V-0613、Claude 3 Opus、SDXL 1.0、YOLOv8x、甚至还有充足的预算和内部数据但最后做出来的多模态AI Agent产品要么上线3天就被用户/客户骂回原型阶段要么虽然勉强上线但转化率/准确率只有单模态Agent的60%要么直接因为“不可控的视觉幻觉”被监管部门叫停。看完这三个案例我相信你一定会和我第一次遇到这些问题时一样产生强烈的共鸣多模态AI模型很厉害但多模态AI Agent真的很难做——就像给一匹桀骜不驯的野马装了引擎却忘了装缰绳和刹车。钩子案例一某电商大厂的“AI服装搭配师Harness伪”上线翻车记第一个案例是2024年6月我在深圳参加一个“多模态AI电商落地峰会”时某头部综合电商平台为了避嫌我就叫它“E平台”吧的AI部门负责人在闭门会上分享的——这个案例后来也被TechCrunch、36氪等科技媒体零星报道过但E平台的负责人讲的细节比媒体报道的要“扎心”100倍。案例背景E平台在2023年Q4推出了纯文本服装搭配师Agent——这个Agent是基于GPT-4 Turbo 0314版本做的主要功能是根据用户输入的“身高、体重、体型、场合、预算、风格偏好”6个维度的纯文本信息推荐3-5套搭配方案并附上E平台自营或第三方店铺的商品链接。这个纯文本Agent的效果超出了E平台的预期上线3个月搭配方案的点击率达到了28.7%远高于人工搭配师的12.3%转化率达到了4.2%是人工搭配师的2.1倍日调用量破了200万次为E平台带来了每月超过3.2亿GMV的增量。尝到甜头之后E平台的AI部门负责人决定在2024年Q2推出**“多模态服装搭配师Agent”**——他们的想法很简单纯文本Agent最大的痛点是“无法获取用户的现有服装”比如用户说“我有一件藏青色的西装外套想配一条适合商务晚宴的裤子”纯文本Agent只能根据“藏青色西装外套”这个文字描述去“想象”外套的款式是单排扣还是双排扣是修身款还是宽松款是条纹的还是纯色的然后再推荐裤子准确率肯定会有损失纯文本Agent的另一个痛点是“推荐方案不够直观”虽然Agent会给搭配方案配上文字描述和商品链接但用户还是需要点开每个商品链接去看图片然后自己在脑子里“拼”搭配效果体验不够好于是E平台的AI部门负责人提出了一个“完美”的产品需求新增“上传现有服装图片”功能用户可以上传1-5张自己现有服装的图片比如外套、裤子、衬衫、鞋子、配饰Agent需要先通过OCR识别图片里的文字比如品牌、尺码标签再通过视觉大模型识别服装的款式、颜色、材质、风格4个维度的信息新增“生成搭配方案3D渲染图/拼接图”功能Agent根据用户的现有服装图片识别结果纯文本输入信息先在E平台的商品库里找到3-5套匹配的搭配方案每套方案里会有1-2件用户不需要买的“现有服装占位符”再调用Stable Diffusion XL 1.0 ControlNet 1.1OpenPose、Canny、Depth三个插件生成3-5张用户现有服装和推荐商品的拼接图/低精度3D渲染图保留纯文本Agent的所有功能。案例实施过程为了快速上线这个多模态AgentE平台的AI部门负责人组建了一个20人的“快速迭代小分队”——包括8名大模型Prompt工程师、4名视觉大模型微调工程师、3名Stable Diffusion/ControlNet插件开发工程师、3名前后端开发工程师、2名产品经理。这个小分队的开发速度非常快只用了2周就完成了“上传现有服装图片”的前后端开发只用了3周就完成了GPT-4V 0613版本的OCR视觉识别Prompt的优化他们用E平台内部的100万张服装标注数据集做了Few-Shot Learning的Prompt识别准确率在标注数据集上达到了92.7%只用了4周就完成了Stable Diffusion XL 1.0 ControlNet 1.1的集成和拼接图/低精度3D渲染图的Prompt优化他们用E平台内部的50万张搭配方案拼接图做了LoRA微调生成的图片在标注数据集上的“风格匹配度”达到了87.3%只用了1周就完成了内部测试和灰度测试的准备工作。2024年5月20日这个日子选得很好刚好是电商的“520购物节”预热期这个多模态服装搭配师Agent在E平台的**1%活跃用户约500万人**中进行了灰度测试——小分队的成员们都很兴奋以为这个Agent会比纯文本Agent还要“火”能为“520购物节”带来更多的增量GMV。案例翻车现场然而现实给了小分队当头一棒灰度测试第一天5月20日的早上9点到12点多模态Agent的日调用量就达到了300万次是预期的3倍这本来是个好消息但很快后台的用户反馈系统就炸了小分队的成员们打开用户反馈系统一看差评率达到了惊人的62.3%纯文本Agent的差评率只有2.7%用户的差评主要集中在三个方面视觉识别严重“抽风”比如用户上传了一件“藏青色单排扣修身西装外套”Agent识别成了“黑色双排扣宽松西装外套”、“藏青色单排扣宽松风衣”、甚至“白色短袖T恤”——哦对了还有用户上传了一只猫的照片故意测试Agent的鲁棒性Agent识别成了“灰色毛绒外套”图像生成完全“不符合用户意图”比如用户上传了一件“藏青色单排扣修身西装外套”输入的信息是“商务晚宴预算2000元风格偏好简约优雅”Agent推荐的搭配方案是“藏青色西装外套红色亮片超短裙10cm细跟高跟鞋金色大耳环彩色钻石项链”生成的拼接图更是“辣眼睛”——红色亮片超短裙和藏青色西装外套完全不搭金色大耳环和彩色钻石项链堆在一起像个“圣诞树”推理链跑着跑着就“跑题”了比如用户上传了一件“藏青色单排扣修身西装外套”输入的信息是“商务晚宴预算2000元风格偏好简约优雅”Agent一开始还在推荐裤子、衬衫、鞋子但推荐着推荐着就跳到了“推荐商务晚宴的邀请函模板”、“推荐商务晚宴的化妆教程”、甚至“推荐商务晚宴的酒店预订链接”——完全脱离了“服装搭配”这个核心任务更糟糕的是多模态Agent的点击率只有11.2%是纯文本Agent的39%转化率只有0.9%是纯文本Agent的21%甚至还有不少用户因为Agent的“辣眼睛拼接图”和“抽风识别结果”卸载了E平台的APP灰度测试进行到5月20日下午3点E平台的CEO就亲自给AI部门负责人打了电话要求立刻停止多模态Agent的灰度测试把所有测试用户切换回纯文本Agent闭门会上E平台的AI部门负责人苦笑着说“我们花了2个月的时间、近500万的预算做出来的多模态Agent还不如一个只会说‘抱歉我暂时只能处理纯文本信息请您用文字描述您的现有服装’的机器人——至少那个机器人不会‘抽风’不会‘跑题’不会‘辣眼睛’。”案例失败的核心原因初步分析后来我和E平台的AI部门负责人私下聊了很久我们一起总结了这个多模态Agent失败的5个核心原因——这5个原因其实就是我们今天要讲的“Harness Engineering”要解决的核心问题**没有做“Vision-Language Alignment Bridle对齐缰”**E平台的小分队只是用了Few-Shot Learning的Prompt让GPT-4V识别服装的4个维度的信息但没有做“视觉特征与文本特征的深度对齐”——简单来说就是GPT-4V虽然能“看”懂图片但它“看”懂的图片和E平台商品库里的商品“看”懂的图片、和用户脑子里“想”的图片根本不是同一个“东西”**没有做“Task Decomposition Cart拆解车”**E平台的小分队把“多模态服装搭配”这个复杂任务当成了一个“单一任务”扔给了GPT-4V但实际上“多模态服装搭配”这个任务可以拆解成“现有服装视觉识别→现有服装文本特征提取→用户纯文本信息特征提取→现有服装与用户信息的融合→商品库匹配→搭配方案逻辑验证→图像生成→图像逻辑验证→最终方案输出”10个“子任务”——每个子任务都应该由专门的模型/工具来处理而不是扔给一个通用大模型**没有做“Reasoning Reins推理绳”**E平台的小分队虽然用了CoT Prompt让GPT-4V进行推理但没有做“推理路径的约束和监控”——简单来说就是GPT-4V虽然会“思考”但它的“思考路径”是完全自由的没有任何约束很容易就“跑题”了**没有做“Tool Control Whip工具鞭”**E平台的小分队虽然集成了Stable Diffusion XL 1.0 ControlNet 1.1但没有做“工具调用的约束和验证”——简单来说就是Stable Diffusion虽然会“生成图片”但它生成的图片是否符合用户的意图、是否符合E平台的商品规则、是否符合公序良俗根本没有人/工具去检查**没有做“State Monitoring Bit监控嚼子”**E平台的小分队虽然做了后台的用户反馈系统但没有做“Agent状态的实时监控和自动修正”——简单来说就是Agent只有在用户给出差评之后小分队才知道它“抽风”了但在它“抽风”的过程中根本没有任何机制去阻止它、修正它。钩子案例二某工业视觉独角兽的“AI智能质检Harness伪”差点毁了一个客户的千万订单第二个案例是我亲身经历过的——2024年3月我当时所在的创业公司我们专门做工业视觉AI Agent的落地工程接到了一个“紧急求助”某国内头部工业视觉独角兽为了避嫌我就叫它“V平台”吧的AI部门负责人给我打电话说他们给某国内头部汽车零部件制造商为了避嫌我就叫它“C客户”吧做的“AI智能汽车刹车片质检Harness伪”差点毁了C客户的一个价值1200万欧元的德国某豪华汽车品牌的订单。案例背景C客户是德国某豪华汽车品牌比如宝马、奔驰、奥迪——我就不具体说了的一级供应商主要生产汽车的刹车片——这个订单是C客户在2023年Q4拿到的要求在2024年Q2交付100万套刹车片每套刹车片的质检时间不能超过0.5秒质检的漏检率必须低于0.0001%也就是100万套刹车片里最多只能有1套漏检的误检率必须低于0.1%也就是100万套刹车片里最多只能有1000套误检的。C客户之前的质检方式是“人工质检传统机器视觉质检”——人工质检主要负责检查刹车片的“外观缺陷比如划痕、气泡、色差、掉漆”和“安装孔位置偏差”传统机器视觉质检主要负责检查刹车片的“尺寸偏差”和“厚度偏差”。但这种质检方式有两个致命的问题人工质检的速度太慢、成本太高、漏检率/误检率不稳定C客户当时雇佣了200名质检工人两班倒每天只能质检5万套刹车片每套刹车片的质检成本是0.8元人民币漏检率在0.01%-0.05%之间波动误检率在0.5%-1.0%之间波动——根本满足不了德国豪华汽车品牌的要求传统机器视觉质检的“泛化能力太差”德国豪华汽车品牌的刹车片型号有100多种每种型号的刹车片的外观、尺寸、厚度都不一样传统机器视觉质检需要针对每种型号的刹车片重新“训练模型调整参数”每次重新训练和调整参数都需要1-2周的时间成本也很高——C客户当时根本没有这么多时间和预算。于是C客户在2024年1月找到了V平台要求V平台在2个月的时间里做一个“多模态AI智能汽车刹车片质检Harness伪”——他们的想法是这个Agent应该是“多模态”的既要能“看”懂刹车片的高清RGB图像检查外观缺陷和安装孔位置偏差也要能“看”懂刹车片的3D点云数据检查尺寸偏差和厚度偏差还要能“读”懂刹车片的二维码/条形码数据获取刹车片的型号信息这个Agent应该是“泛化能力很强”的不需要针对每种型号的刹车片重新训练模型只需要输入该型号刹车片的“标准RGB图像标准3D点云数据标准尺寸参数标准缺陷列表”就能在10分钟之内完成模型的“自适应调整”这个Agent应该是“速度很快、漏检率/误检率很低”的每套刹车片的质检时间不能超过0.4秒漏检率必须低于0.00005%比德国豪华汽车品牌的要求还要严格一倍误检率必须低于0.05%也比德国豪华汽车品牌的要求还要严格一倍这个Agent应该是“可控、可解释”的每次质检之后Agent都要输出“质检结果合格/不合格不合格原因不合格位置的标注图置信度分数”——如果置信度分数低于95%Agent要自动把该套刹车片送到“人工复检台”进行复检。案例实施过程V平台当时是国内工业视觉领域的“头部玩家”手里有最好的硬件H100集群、最好的模型YOLOv8x、SAMSegment Anything Model、PointNet、GPT-4V-0314、还有充足的工业视觉标注数据集超过10亿张——他们认为这个项目“非常简单”只用了15人的小分队就接了下来。这个小分队的开发速度也很快只用了1周就完成了“高清RGB图像采集3D点云数据采集二维码/条形码数据采集”的硬件集成只用了2周就完成了YOLOv8x的微调用V平台内部的1000万张汽车刹车片外观缺陷标注数据集、SAM的集成、PointNet的微调用V平台内部的500万张汽车刹车片3D点云数据标注数据集只用了3周就完成了GPT-4V-0314版本的集成——他们用GPT-4V做“多模态数据融合质检结果的可解释性生成”只用了1周就完成了内部测试和C客户的工厂现场测试的准备工作。2024年3月1日这个多模态AI智能汽车刹车片质检Agent在C客户的1号生产线上进行了工厂现场小批量测试——测试的刹车片型号是德国豪华汽车品牌最常用的“型号X”测试的刹车片数量是10万套。小批量测试的结果非常好每套刹车片的质检时间只有0.35秒满足要求漏检率为0%10万套刹车片里没有一套漏检的——当然这可能是因为测试的数量太少误检率只有0.03%10万套刹车片里只有30套误检的——也满足要求每次质检之后Agent都能输出清晰的质检结果、不合格原因、不合格位置的标注图和置信度分数置信度分数低于95%的刹车片数量只有20套也被送到了人工复检台复检结果显示其中18套是合格的2套是不合格的——误检率还是很低。C客户的CEO和德国豪华汽车品牌的采购总监都对这个测试结果非常满意——C客户的CEO当场决定在所有10条生产线上都安装这个多模态AI智能汽车刹车片质检Agent德国豪华汽车品牌的采购总监也决定在2024年Q2的订单交付之后把C客户的“供应商评级”从“AA”提升到“AAA”。V平台的AI部门负责人和小分队的成员们都很兴奋——他们认为这个项目“肯定能拿到C客户的年度最佳供应商奖”还能在“工业视觉AI落地领域打一个漂亮的广告”。案例翻车现场然而现实又给了他们当头一棒2024年3月15日这个多模态AI智能汽车刹车片质检Agent在C客户的所有10条生产线上正式上线上线的前10天一切都很顺利每天能质检20万套刹车片漏检率为0%误检率只有0.02%置信度分数低于95%的刹车片数量每天只有10-20套2024年3月26日C客户的质量控制部门突然发现有一批型号X的刹车片共12000套的“摩擦系数”不符合德国豪华汽车品牌的要求——这批刹车片已经被包装好准备发往德国C客户的质量控制部门立刻对这批12000套刹车片进行了100%人工复检——复检结果显示有117套刹车片存在“表面微裂纹”缺陷这种缺陷用肉眼很难看出来但用高精度显微镜可以看出来而且会严重影响刹车片的摩擦系数C客户的质量控制部门又立刻调取了这117套刹车片的Agent质检记录——质检记录显示这117套刹车片的质检结果都是“合格”置信度分数都在98.5%-99.9%之间Agent标注的RGB图像和3D点云数据里完全没有“表面微裂纹”的标注更糟糕的是C客户的质量控制部门又对过去10天里生产的所有型号X的刹车片共200万套进行了抽样复检——抽样比例是10%20万套复检结果显示有1923套刹车片存在“表面微裂纹”缺陷按照这个抽样比例推算过去10天里生产的200万套刹车片里可能有19230套左右存在“表面微裂纹”缺陷——如果这些刹车片被发往德国德国豪华汽车品牌肯定会拒收所有货物扣除C客户的全部保证金约240万欧元降低C客户的供应商评级甚至终止和C客户的所有合作2024年3月27日C客户的CEO亲自给V平台的CEO打了电话要求立刻停止所有生产线的Agent质检切换回“人工质检传统机器视觉质检”赔偿C客户的所有损失包括重新质检的成本、延误交货的成本、可能的违约金——初步估计超过1000万欧元否则就起诉V平台当时我所在的创业公司和C客户有一些合作关系——C客户的质量控制总监是我的大学同学他在2024年3月27日晚上给我打电话问我能不能“紧急救援”帮他们找到Agent漏检“表面微裂纹”的原因并且在1周之内修复这个问题我当时所在的创业公司的团队只有10个人但我们都是“工业视觉AI落地工程的老兵”——我立刻答应了下来带着团队的所有成员连夜飞到了C客户的工厂。案例失败的核心原因深入分析我和团队的成员们用了3天的时间终于找到了Agent漏检“表面微裂纹”的6个核心原因——这6个原因也是“Harness Engineering”要解决的核心问题没有做“多模态数据预处理的标准化Harness”V平台的小分队在采集刹车片的高清RGB图像时没有对光照条件、拍摄角度、拍摄距离进行严格的标准化控制——2024年3月25日C客户的工厂车间里的一盏主光灯坏了维修工人换了一盏亮度比原来低20%、色温比原来高30%的主光灯——但V平台的小分队没有做“光照条件变化的自适应预处理Harness”导致GPT-4V和YOLOv8x都“看不清楚”刹车片的表面微裂纹**没有做“Vision-Language Alignment Bridle对齐缰的工业场景定制”**V平台的小分队只是用了V平台内部的通用工业视觉标注数据集做了YOLOv8x和PointNet的微调用了通用的Few-Shot Learning Prompt让GPT-4V做“多模态数据融合质检结果的可解释性生成”——但他们没有做“汽车刹车片表面微裂纹的视觉特征与文本特征的深度对齐”——简单来说就是GPT-4V虽然能“看”懂通用的工业缺陷但它“看”懂的“表面微裂纹”和C客户、德国豪华汽车品牌定义的“表面微裂纹”根本不是同一个“东西”C客户和德国豪华汽车品牌定义的“表面微裂纹”是“长度≥0.1mm、宽度≥0.01mm、深度≥0.005mm的裂纹”但V平台内部的通用工业视觉标注数据集里定义的“表面微裂纹”是“长度≥0.5mm、宽度≥0.05mm、深度≥0.01mm的裂纹”**没有做“Task Decomposition Cart拆解车的工业场景细化”**V平台的小分队把“多模态AI智能汽车刹车片质检”这个复杂任务拆解成了“二维码/条形码识别→型号信息获取→RGB图像采集→YOLOv8x外观缺陷检测→SAM缺陷分割→3D点云数据采集→PointNet尺寸/厚度/安装孔位置检测→GPT-4V多模态数据融合→质检结果输出”9个“子任务”——但他们没有把“YOLOv8x外观缺陷检测”这个子任务进一步拆解成“光照条件自适应预处理→图像增强→微裂纹专用YOLOv8x模型检测→一般缺陷通用YOLOv8x模型检测→检测结果融合”5个“更小的子任务”——简单来说就是他们用了一个“通用的外观缺陷检测模型”去检测“非常特殊的表面微裂纹”准确率肯定会有损失**没有做“Reasoning Reins推理绳的工业场景约束”**V平台的小分队虽然用了CoT Prompt让GPT-4V进行推理但没有做“推理路径的工业场景硬约束”——简单来说就是GPT-4V的“思考路径”里没有“必须优先检查表面微裂纹”、“表面微裂纹的检测结果的权重必须是一般缺陷的10倍”这样的“硬约束”**没有做“Tool Control Whip工具鞭的工业场景验证”**V平台的小分队虽然集成了YOLOv8x、SAM、PointNet、GPT-4V但没有做“工具调用结果的工业场景交叉验证”——简单来说就是如果YOLOv8x检测出了表面微裂纹SAM没有分割出表面微裂纹或者PointNet检测出了表面微裂纹对应的“厚度微小变化”Agent应该自动把该套刹车片送到“人工复检台”而不是直接输出“合格”的质检结果**没有做“State Monitoring Bit监控嚼子的工业场景实时监控”**V平台的小分队虽然做了后台的Agent质检记录系统但没有做“Agent状态的工业场景实时监控和自动报警”——简单来说就是当工厂车间里的主光灯坏了、光照条件变化了的时候Agent应该自动“感知”到这种变化自动报警并且自动切换到“低光照条件专用模型”进行检测而不是继续用“正常光照条件通用模型”进行检测。后来我和团队的成员们用了4天的时间帮C客户修复了这个问题——我们主要做了以下几件事做了“多模态数据预处理的标准化Harness”对光照条件、拍摄角度、拍摄距离进行了严格的标准化控制并且安装了“光照传感器”和“角度传感器”做了“光照条件变化的自适应预处理Harness”用了GANGenerative Adversarial Network模型做“低光照图像增强”和“色温校正”做了“表面微裂纹专用YOLOv8x模型”用C客户过去3年里积累的10万张表面微裂纹标注数据集包括高精度显微镜下的标注数据集做了YOLOv8x的微调做了“Task Decomposition Cart拆解车的工业场景细化”把“YOLOv8x外观缺陷检测”这个子任务进一步拆解成了5个“更小的子任务”做了“Reasoning Reins推理绳的工业场景约束”在CoT Prompt里加入了“必须优先检查表面微裂纹”、“表面微裂纹的检测结果的权重必须是一般缺陷的10倍”这样的“硬约束”做了“Tool Control Whip工具鞭的工业场景交叉验证”如果三个模型表面微裂纹专用YOLOv8x、SAM、PointNet里有任何一个模型检测出了表面微裂纹或者对应的特征Agent就自动把该套刹车片送到“人工复检台”做了“State Monitoring Bit监控嚼子的工业场景实时监控和自动报警”当光照传感器或角度传感器检测到光照条件或拍摄角度变化超过“阈值”时Agent就自动报警并且自动切换到对应的“专用模型”进行检测。修复之后我们又对C客户的1号生产线进行了100万套型号X的刹车片的测试——测试结果非常好每套刹车片的质检时间只有0.38秒还是满足要求漏检率为0%误检率只有0.04%还是满足要求置信度分数低于95%的刹车片数量每天只有30-40套表面微裂纹的检测准确率达到了100%。C客户的CEO和德国豪华汽车品牌的采购总监都对我们的修复结果非常满意——C客户的CEO当场决定和我们的创业公司签订3年的独家合作协议德国豪华汽车品牌的采购总监也决定恢复C客户的“供应商评级”提升计划。而V平台呢他们不仅赔偿了C客户的所有损失约800万欧元——因为C客户后来把那些存在表面微裂纹的刹车片重新加工了一下卖给了国内的一些汽车品牌减少了一部分损失还失去了C客户这个重要的客户在工业视觉AI落地领域的声誉也受到了很大的影响——直到现在V平台的AI部门负责人还经常和我联系向我请教“Harness Engineering”的相关问题。钩子案例三某教育科技独角兽的“AI多模态作业辅导Harness伪”因为“不可控的视觉幻觉”被监管部门叫停第三个案例是我在2024年4月刷“国家网信办举报中心”的网站时看到的——后来我也和这个教育科技独角兽为了避嫌我就叫它“Edu平台”吧的AI部门负责人在一个“多模态AI教育落地峰会”上私下聊过确认了这个案例的真实性。案例背景Edu平台是国内某头部K12教育科技独角兽主要产品是“在线直播课”和“AI作业辅导APP”——他们的“AI作业辅导APP”之前是“纯文本纯公式”的主要功能是根据用户输入的“作业题目图片的OCR识别结果纯文本纯公式”推荐“解题思路答案类似题目”。这个纯文本纯公式的AI作业辅导APP的效果也不错上线2年日活用户破了1000万月活用户破了5000万付费用户破了500万年营收破了50亿人民币。尝到甜头之后Edu平台的AI部门负责人决定在2024年Q1推出**“多模态AI作业辅导APP 2.0”**——他们的想法是纯文本纯公式的AI作业辅导APP最大的痛点是“无法处理‘图文结合’的作业题目”比如小学数学里的“几何图形题目”、初中物理里的“电路图题目”、初中化学里的“实验装置图题目”——纯OCR识别只能识别出文字和公式无法识别出几何图形、电路图、实验装置图的“结构和逻辑”推荐的解题思路和答案肯定会有错误纯文本纯公式的AI作业辅导APP的另一个痛点是“解题思路不够直观”虽然APP会给解题思路配上文字和公式但对于“图文结合”的作业题目来说用户还是需要自己在脑子里“想象”几何图形、电路图、实验装置图的“变化过程”体验不够好于是Edu平台的AI部门负责人提出了一个“完美”的产品需求新增“直接上传图文结合的作业题目图片”功能不需要用户手动框选文字和公式也不需要用户手动框选图形Agent需要直接“看”懂整个图片的“结构和逻辑”新增“生成解题思路的动态演示图/动图”功能比如对于几何图形题目Agent需要生成“辅助线的动态添加过程”的动图对于电路图题目Agent需要生成“电流的流动过程”的动图新增“AI老师一对一视频讲解”的预生成功能Agent需要根据作业题目的解题思路预生成一段“AI老师的虚拟人像动态演示图语音讲解”的视频保留纯文本纯公式的AI作业辅导APP的所有功能。案例实施过程Edu平台当时也是国内教育科技领域的“头部玩家”手里有最好的硬件A100集群、最好的模型GPT-4V-0314、Claude 3 Opus、SDXL 1.0、AnimateDiff、D-ID、MathPix、还有充足的K12作业题目标注数据集超过10亿道——他们认为这个项目“非常简单”只用了25人的小分队就接了下来。这个小分队的开发速度也很快只用了1周就完成了“直接上传图文结合的作业题目图片”的前后端开发只用了2周就完成了GPT-4V-0314版本的“图文结合作业题目理解”Prompt的优化用Edu平台内部的1000万道图文结合作业题目标注数据集做了Few-Shot Learning的Prompt理解准确率在标注数据集上达到了95.2%只用了3周就完成了SDXL 1.0 AnimateDiff的集成和动态演示图/动图的Prompt优化只用了4周就完成了D-ID的集成和AI老师虚拟人像视频的预生成只用了1周就完成了内部测试和灰度测试的准备工作。2024年3月1日这个多模态AI作业辅导APP 2.0在Edu平台的**5%活跃用户约250万人**中进行了灰度测试——小分队的成员们都很兴奋以为这个APP 2.0会比APP 1.0还要“火”能带来更多的付费用户和营收。案例翻车现场然而现实又给了他们当头一棒灰度测试第一天3月1日的早上8点到10点多模态APP 2.0的日调用量就达到了500万次是预期的5倍这本来是个好消息但很快后台的用户反馈系统就炸了国家网信办举报中心的网站也收到了大量的家长举报家长的举报主要集中在三个方面不可控的视觉幻觉导致解题思路和答案完全错误比如有个家长上传了一道“小学数学几何图形题目”——题目是“一个长方形的长是10cm宽是5cm把它剪成两个完全一样的正方形每个正方形的周长是多少”——Agent生成的解题思路是“把长方形沿着长的中点剪成两个完全一样的正方形每个正方形的边长是10cm周长是40cm”生成的动态演示图也是“把长方形沿着长的中点剪成两个边长为10cm的正方形”——但实际上每个正方形的边长应该是5cm周长应该是20cm不可控的视觉幻觉导致生成的内容不符合公序良俗比如有个家长上传了一道“初中物理电路图题目”——Agent生成的AI老师虚拟人像视频里AI老师的“穿着过于暴露”“语气过于轻浮”甚至还“说了一些和作业题目无关的暧昧的话”不可控的视觉幻觉导致生成的内容涉及暴力、血腥、恐怖比如有个家长上传了一道“初中化学实验装置图题目”——题目是“实验室用高锰酸钾制取氧气的实验装置图”——Agent生成的动态演示图里“高锰酸钾加热之后爆炸了”“实验装置图里的玻璃碎片飞得到处都是”甚至还“有一些‘血’溅到了实验台上”更糟糕的是多模态APP 2.0的付费转化率只有0.5%是APP 1.0的10%甚至还有不少付费用户因为Agent的“错误解题思路”和“不符合公序良俗的内容”申请了退款灰度测试进行到3月2日下午2点国家网信办和教育部就联合给Edu平台的CEO打了电话要求立刻停止多模态APP 2.0的灰度测试把所有测试用户切换回APP 1.0全面排查APP 2.0的所有内容提交一份详细的整改报告否则就吊销Edu平台的“在线教育运营许可证”闭门会上Edu平台的AI部门负责人苦笑着说“我们花了3个月的时间、近800万的预算做出来的多模态APP 2.0还不如一个只会说‘抱歉我暂时只能处理纯文本纯公式的作业题目请您用MathPix识别一下图片里的文字和公式然后输入到APP里’的机器人——至少那个机器人不会‘生成错误的解题思路’不会‘生成不符合公序良俗的内容’不会‘生成涉及暴力、血腥、恐怖的内容’。”案例失败的核心原因最终分析后来我和Edu平台的AI部门负责人私下聊了很久我们一起总结了这个多模态APP 2.0失败的7个核心原因——这7个原因也是“Harness Engineering”要解决的核心问题**没有做“Vision-Language Alignment Bridle对齐缰的教育场景定制严格的语义约束”**Edu平台的小分队只是用了Edu平台内部的通用K12作业题目标注数据集做了Few-Shot Learning的Prompt但没有做“几何图形、电路图、实验装置图的视觉特征与数学/物理/化学语义的深度对齐”也没有做“解题思路和答案的严格语义约束”——简单来说就是GPT-4V虽然能“看”懂作业题目图片但它“看”懂的几何图形、电路图、实验装置图的“结构和逻辑”和数学/物理/化学课本里定义的“结构和逻辑”根本不是同一个“东西”而且它生成的解题思路和答案也没有经过“数学/物理/化学定理的验证”**没有做“Task Decomposition Cart拆解车的教育场景细化定理验证子任务”**Edu平台的小分队把“多模态AI作业辅导”这个复杂任务拆解成了“作业题目图片上传→GPT-4V图文理解→解题思路生成→答案生成→类似题目推荐→动态演示图生成→AI老师视频预生成”7个“子任务”——但他们没有把“解题思路生成”和“答案生成”这两个子任务进一步拆解成“**子问题拆解→每个子问题的定理匹配→每个子问题的解题步骤生成→每个子问题的答案生成→所有子问题的解题步骤融合→所有子问题的答案融合→最终解题

更多文章