Agentic Infrastructure 决…

2026 年 4 月，一家前端平台披露：每周部署量半年内翻倍，其中超过 30% 由 AI 发起——六个月前仅 3%，增幅 1000%。[1]

Claude Code 占这些部署量的 75%，Lovable/v0 占 6%，另一款工具占 1.5%。[1] 更关键的是：这些 AI 部署的项目调用推理服务的概率是人工部署的 20 倍。[1]（关于这些数据的详细解读，可参考我们昨天的文章《Coding Agent 接管 30% 部署》。）

如果你的团队还在争论"要不要让 AI 写代码"，这个问题已经过时了。真正的问题是：当 30% 的部署不再由人触发，你的基础设施是否做好了准备？

本文从 CTO 和技术负责人的视角出发，拆解业界提出的三层框架，提供可落地的自建 vs 采购评估矩阵，并分享优码云团队在给某金融客户交付项目时遇到的 3 个管道对接工程问题。

一个数字改变一切：30% 的部署已不是人做的

先把这个数字放在更大的背景里看。麦肯锡最新调查显示，全球 23% 的组织已在其核心业务中规模化部署 AI 智能体，另有 39% 正在深度试点。[2] 行业预测到今年底，40% 的企业级软件将深度集成智能体能力。[2]

30% 这个数字之所以关键，在于它是一个可量化的前哨指标：AI 正在从辅助编码演变为自主部署主体。如果你还在把这类工具当"高级代码补全"用，你的竞争对手可能已经让它们直接操作生产环境了。

另一个值得关注的信号来自主流 AI 编程 IDE：4 月的重大更新将编辑器重构为以智能体为中心的工作空间，随后推出的 SDK 允许编程式构建智能体，autoinstall 功能则让模型自动完成环境设置。[3][4] 这些动作的指向很明确：AI 正在从"辅助工具"变成"平台参与者"。

三层框架拆解：从部署面到自治基础设施

业界提出的三层框架，可以用来理解基础设施的演进路径。[1] 以下从企业决策角度逐层拆解。

第一层：为 AI 提供部署面

这是最基础也最紧迫的一层。当 AI 写完代码后，它需要一个地方来运行、测试和验证输出。如果从代码到运行系统的路径涉及手动操作 Terraform 或云控制台点击，自治循环就会断裂。不可变部署、每次提交的预览 URL、即时回滚——这些在传统 DevOps 里属于体验优化，在 AI 驱动的开发模式下是硬性前提。

自检问题：你的部署管道是否支持完全 API 驱动的流程？AI 能否通过一条命令完成"提交代码 → 获取预览 URL → 验证 → 上线"的全流程？

第二层：为智能体提供运行环境

智能体工作负载与传统 serverless 有本质区别：需要长时间执行、多步骤编排、模型路由、成本控制、沙箱化代码执行。这一层需要整合 AI SDK、模型网关、长任务队列、沙箱和可观测性等组件。[1]

自检问题：你的团队是否具备构建智能体运行时环境的能力？多模型路由、长任务状态管理、沙箱隔离——这些与传统的微服务架构有本质差异。

第三层：基础设施自治化

传统基础设施是单向的：代码进去，日志出来，人读日志修代码。自治基础设施则能主动监控异常、查询可观测数据、进行根因分析，并在沙箱中验证修复方案。目前这一层仍需要人工审批，但平台会逐步承担更多运维负担。[1]

自检问题：你的可观测性数据是否已经结构化到可以被程序化消费的程度？还是只能靠人看 Grafana 面板？

企业自建 vs 采购：三层能力评估矩阵

层次	自建条件	采购条件	推荐策略
第一层：部署面	已有成熟发布平台（如 Jenkins + ArgoCD），API 覆盖率达 90% 以上	发布流程仍依赖人工操作，或团队 DevOps 能力不足 3 人	优先采购。多家平台已提供原生部署面，自建成本远高于收益。
第二层：运行环境	团队有 AI infra 经验，已在使用 LangGraph/CrewAI 等框架，对数据主权有严格要求	团队以业务开发为主，AI infra 经验不足，希望快速验证场景	混合策略。核心编排层可自建，模型网关/沙箱/可观测性建议采购。
第三层：自治化	不推荐自建。尚无成熟开源方案，需要大量 RL 训练数据	等待平台成熟。当前仍处于早期	观望。可小范围试点但不要作为核心依赖。

决策流程：先评估第一层——如果团队无法在 2 周内让 AI 完成一次全自动部署上线，优先解决这个问题。第二层可以并行启动小规模试点。第三层放到 Q4 再看。

我们踩过的坑：管道对接的 3 个工程问题

今年初，优码云团队为一家金融科技客户交付多智能体协作项目。客户要求 AI 生成的代码必须通过现有发布管道才能上线。以下是 3 个典型问题。

坑 1：AI 生成的 PR 不符合 lint 规范

AI 提交 PR → 自动化检查跑 lint 失败 → AI 重试 → 仍不符合规范 → 循环 5 轮后人工介入。

解法：在 system prompt 中注入仓库的 lint 配置摘要，在验证步骤中增加本地 lint --fix 环节。同时设置自动化检查侧最大重试次数为 2，超过后自动分配给人审。

坑 2：数据库 migration 冲突

AI 在开发分支上自动生成的 migration 文件与另一个 feature 分支冲突，自动化合并检测到 schema 状态不一致，发布管道阻塞 4 小时。

解法：将数据库 migration 从"可自动执行"清单中移除，AI 只能生成 migration 文件并提交 PR，由 DBA 审核后再合并。这个限制需要在工具调用层面做硬编码，不能只靠 prompt 约束。

坑 3：部署凭证缺乏审计链路

AI 调用频率是人的 10-100 倍，传统 API key 轮换机制不适用。安全团队要求每条 AI 发起的部署调用都可追溯、可吊销。

解法：为 AI 创建独立 service account，绑定最小权限策略，在发布管道的每个关键节点插入审计钩子，将 session ID、模型调用 ID 和部署事件 ID 关联到统一审计日志。

下半年该做什么：CTO 的行动清单

量化你的"AI 部署率"：在发布管道中插入埋点，统计每周由 AI 发起的部署占比。如果低于 5%，说明团队还在用手工模式用 AI。
修复第一层缺口：确保部署面支持完全 API 驱动。如果做不到，优先采购一个原生部署平台。
启动第二层试点：选一个非关键业务场景，用 LangGraph 或 AI SDK 构建最小智能体，跑通"代码生成 → 自动部署 → 结果验证"闭环。目标不是产出代码，而是暴露基础设施断点。
建立 AI 治理基线：包括凭证管理策略、最大重试次数、可自动执行的操作白名单、审计日志规范。这些规则应在 AI 上线前定好。
关注 MCP 协议生态：Anthropic 已将 MCP 协议捐给 Agentic AI Foundation。截至 3 月，MCP SDK 月下载量达 9700 万，活跃公开服务器超 1 万个。[5] 如果你的工具链还不支持 MCP，下半年应纳入技术规划。

常见问题

问：这套三层框架和传统 DevOps 有什么区别？

传统 DevOps 假设最终操作者是人。新框架假设最终操作者是机器。所有接口必须程序化可调用，所有反馈必须结构化可消费，所有异常必须可自动响应。

问：中小企业有必要关注吗？

有必要，但优先级不同。先确保第一层（部署面）可用，第二层等业务场景明确后再投入。第三层目前为时过早。

问：自建运行环境和用平台方案有什么区别？

自建优势是数据主权和定制空间，代价是维护成本——需要自己处理模型路由、成本控制、沙箱隔离等。平台方案开箱即用，但有 vendor lock-in 风险。建议核心编排层自建，基础设施层采购。

问：发布管道的安全风险主要在哪里？

三个主要风险点：凭证泄露（AI 的 API key 使用频率远高于人，暴露面更大）、prompt injection（攻击者可能通过仓库中的恶意注释诱导 AI 执行非预期操作）、审计缺失（AI 的调用链路比人更长，追溯难度更高）。

问：下半年应该选哪个框架？

TypeScript 团队可关注 AI SDK 6 的智能体抽象层，Python 团队关注 LangGraph 生态。对数据主权要求高的可考虑基于 CrewAI/AutoGen 自建。框架选择不是最关键的——关键是先把第一层部署面跑通。

30% 部署来自 AI 之后，CTO 的 Agentic Infrastructure 决策指南