Agent 工程化：95% 项目失败，根因不是模…

2025 年 10 月到 2026 年 1 月，硅谷企业的 AI 智能体项目在生产环境中的失败率是 95%。不是「效果不太好」——是直接跑不起来。多个独立信源交叉验证了这个数字，Gartner 的预测更悲观：到 2027 年将有 40% 的此类项目被正式取消。

同一时期，Anthropic 发布《2026 Agentic Coding Trends Report》，LangChain 创始人 Harrison Chase 在红杉资本的对话中断言「长任务智能体终于开始真正跑起来了」。两边的信号看似矛盾，实则指向同一个现实：这类系统不是跑不通，而是绝大多数团队没搞懂怎么让它跑通。

Demo 很美好，生产很残酷

任何做过智能体项目的开发者都经历过这个循环：用 LangChain 搭一个原型，接上 GPT-4o，花一个下午搞出一个能自动查数据库、写报告、发邮件的演示。效果惊艳，老板说「下周上线」。然后噩梦开始。

财富 500 强里有三家企业，在 2024 年投入 500 万到 2000 万美元搭建自主任务平台，到了 2025 年 Q4 全部停止新项目立项。数据更刺眼：70% 的项目在 Pilot 阶段通过评审，但只有 5% 真正进了生产环境。剩下那 65% 去哪了？死在「从能跑到能用的最后 20%」。关于从验证到上线的完整路径，AI 智能体生产部署架构演进实录中有更系统的拆解。

澳大利亚 ANZ Bank 的工程师 Utkarsh Kanwat 公开分享过他的教训：做了 12 个智能体，演示都很漂亮，但没有一个能满足生产环境的稳定可用要求。他总结了一句话：「你没法靠更好的 prompt 把 Demo 变成产品。」[1]

为什么会这样？一个简单的数学模型就能说明问题。假设一个自主任务需要执行 20 个步骤，每个步骤的独立成功率是 95%——这在单步测试里已经算不错的数字。但 20 步串联下来：

95%²⁰ ≈ 35.8%

一个 20 步的任务，最终成功率只剩三分之一。这就是多步骤系统的 错误累积效应——它不需要任何一步彻底失败，只要累积的不确定性足够多，整个流程就会在某个中间状态彻底偏离预期。而绝大多数 Demo 阶段的设计根本没考虑过这个数学事实。

冰山之下：AI 只占工作量的 10%

2025 年 3 月，数据架构师 Rakesh Gohel 发表了「AI 智能体冰山模型」。这个模型之所以在业内广泛传播，是因为它用一个简单的比喻戳破了泡沫：

水面以上（10%）：模型选型、prompt 设计、推理能力——这些是 Demo 里能看到的。
水面以下（90%）：工具工程、状态管理、上下文压缩、可观测性、安全治理、回滚机制、多租户隔离、速率限制——这些是生产环境真正要命的东西。

LangChain 创始人 Harrison Chase 在 2026 年初与红杉资本的对话中，用了一个更精确的词来描述这个分层：Harness（运行框架）vs Framework（开发框架）。Framework 帮你搭原型，Harness 帮你跑生产。区别在于 Harness 带有「明确的设计立场」——它内置了规划工具、上下文压缩、失败重试策略，这些不是可选项，是默认行为。[2]

他举了一个具体例子：长任务跑久了，上下文窗口一定会满。这时候怎么压缩？压缩什么？丢哪些信息不会影响任务正确性？这不是一个 prompt 能解决的——它需要一套系统级的上下文管理策略，而这恰好是大多数团队从没认真考虑过的问题。

五个卡死项目的工程问题

2026 年 5 月，AI 工程社区 53AI 发布了一份基于数百个企业项目的事后分析，归纳出五个反复出现的工程问题。这些问题跟模型选型无关，跟框架偏好也无关——它们是纯粹的系统工程问题。[3]

1. 状态管理缺失

自主任务系统不是无状态的 REST API。一个跑了几小时的任务，中间可能会遇到工具调用超时、模型返回格式错误、上下文超出窗口——任何一次中断之后，它能不能从断点继续？大多数 Demo 阶段的系统根本不知道「自己刚才在哪」。生产级方案需要多实例隔离 + 断点续传 + 状态快照，这整套东西的工作量远超 prompt 工程。

2. 工具接口没有防御性设计

系统调用工具时，开发者通常假设工具会返回预期的 JSON。现实是：第三方 API 可能返回 429（限流）、502（网关超时）、甚至一个格式完全不同的错误页 HTML。收到这种东西后会怎么办？绝大多数 Demo 里它就直接吐出一段乱码或者无限重试。工具层的 fault tolerance——超时重试、降级返回、错误码标准化——是系统能跑稳的前提。工具接口的设计决策对整体稳定性有决定性影响，MCP 协议企业级架构实践中有更详细的展开。

3. 评估体系真空

传统软件有单元测试、集成测试、端到端测试。自主任务的「测试」怎么搞？同一个输入，模型可能每次返回不同结果。你没法写一个 assert 语句说「期望输出是 X」。行业里正在形成共识：这类评估需要「评判模型 + 结构化评分维度 + 回归测试集」三件套，但 2026 年的现状是绝大多数团队连一套像样的评估流水线都没搭。

4. 上下文爆炸

长任务跑 50 轮交互后，上下文里塞满了历史工具调用结果、错误堆栈、中间推理过程。Token 成本从几美分涨到几十美元只是表象，更要命的是模型在长上下文里的注意力会漂移——它开始「忘记」任务目标。上下文压缩不是简单的截断，需要保留关键决策节点、丢弃冗余的工具输出、压缩冗长的推理链。

5. 安全边界模糊

系统拥有了工具调用能力之后，安全模型从「输入过滤」变成了「行为约束」。一个客服系统能不能调用退款 API？能退款的上限是多少？哪个角色的用户可以触发这个动作？这些问题在原型阶段不会被问到，但在生产环境里任何一个没封住的路径都是事故。

单智能体 vs 多智能体：2024 到 2026 的能力栈跃迁

Anthropic 在《2026 Agentic Coding Trends Report》里明确指出了一个转折点：2025 年大家还在试图用一个超级枢纽包办一切，2026 年多模块协作已经是主流。[4] 这个转变把工程复杂度又抬了一个数量级。

维度	2024 单模块（短任务）	2026 多模块集群（长任务）
任务时长	秒–分钟级	小时–天级，可跨越多日
容错机制	出错即停止，人工重试	自愈（Self-healing），从失败点恢复
状态管理	无状态或简单内存缓存	持久化快照 + 断点续传 + 日志审计
上下文策略	全量保留，窗口溢出即丢弃	结构化压缩，按决策节点取舍
评估方式	人工看输出质量	评判模型 + 回归集 + 结构化评分
安全模型	输入过滤	行为约束 + 权限分级 + 审计链路
可观测性	打印日志	OpenTelemetry 标准追踪 + 指标面板
工具设计	简单函数调用	防御性接口 + 超时/降级/限流

劳动力管理平台 Fountain 的案例很有参考价值：他们用分层多模块编排系统替代了原来的单一架构，把候选人筛选速度提升了 50%。关键不是模型换了，而是工程上实现了「不同模块在不同上下文窗口里并行处理不同子任务」。多模块编排的架构模式，LangGraph 多智能体编排 4 种模式中有系统拆解。[4]

工程化成熟度：你的团队跌在第几层

综合行业讨论可以提炼出一个三层框架来判断团队当前状态：[1]

L1 · 原型验证：Demo 能跑，老板看了觉得「挺厉害」。没有评估体系，没有状态管理，工具调用裸奔。这一层通过率约 70%，正是那 65% 最终死掉的地方。

L2 · 工程化：有了上下文压缩策略、状态快照、提示词版本管理、基础的可观测性。系统能在受控环境里稳定跑完长任务，但还没有完整的治理框架。从 L1 到 L2 的跃迁不是多写几行代码——它要求团队把自主任务系统当成一个分布式系统来设计。

L3 · 生产化：完整的可观测性平台（日志 / 指标 / 追踪 / 上下文四层）、安全治理框架、99.9% 可用性 SLA。这一层的团队不只是「用了 AI」，而是把 AI 作为基础设施的一部分来运维。

一个判断标准：如果你的系统在生产环境挂了，你是通过用户投诉才知道的，那你就还在 L1。

常见问题

95% 失败率是不是危言耸听？

这个数字来自 2025 年 Q4 到 2026 年 Q1 硅谷企业项目的实际统计，与 Gartner「40% 将被取消」的预测在量级上一致。关键区分：Pilot 阶段的表现远好于生产环境——70% 的 Demo 能过评审，但只有 5% 能上线。差距来自生产环境对稳定性、安全性、可观测性的要求，这些是 Demo 里完全暴露不出来的。

是不是换成更强的模型就能解决问题？

不是。错误累积的数学原理（95%²⁰ ≈ 36%）不会因为模型升级就消失。更好的模型可以把单步成功率从 95% 提到 97%，20 步后是 54%——仍然不够。工程化手段（状态管理、工具层防御、上下文压缩）改的不是单步成功率，而是系统的容错结构——这才是从 36% 走向 95%+ 的真正路径。

小团队做这类系统，该从哪入手？

先别搭多模块系统。从单模块 + 明确边界开始：任务范围要窄（比如「分析指定目录下的日志文件并生成报告」），工具不超过 3 个，先把状态持久化和错误恢复做扎实。等这一个单元能无人值守跑一周不崩，再考虑扩展。从小规模验证到稳定上线的工程细节，RAG 系统从 PoC 到生产的工程实录可作参考。

多模块编排是不是必须用 LangGraph 这类框架？

不必须，但框架提供了编排原语（图结构、条件路由、状态共享），比自己从零写调度逻辑省大量时间。问题不在于选哪个框架，而在于团队有没有能力在框架之上补全冰山下的 90%——可观测、评估、安全。框架解决的是「怎么搭」，工程解决的是「怎么不崩」。

这类工程化的人才从哪来？

2026 年的现实是：后端工程师 + 分布式系统经验，比纯 ML 背景更适合做智能体工程化。这类系统本质上是一个非确定性的分布式系统，对状态管理、容错设计、可观测性的要求与传统微服务架构高度重叠。Harrison Chase 的原话：「构建 Agent，已经不只是把软件开发加一层 AI，而是工程范式本身在变。」[2]

Agent 工程化：95% 的失败率，问题不在模型而在工程