Agentic Infrastructure 解…

2026年4月9日，Vercel 发布了一组数字：平台上每周部署量在三个月内翻倍，其中30%由 AI 编程工具发起。半年前这个比例是3%——1000%的增长。更值得留意的是，这些 AI 部署的项目调用推理 API 的概率是人工项目的20倍。软件正在被软件自己写出来，基础设施却没有为此做好准备。

一个数字改变一切：30% 的部署已不是人做的

Vercel 公布的数据打破了一个默认假设：基础设施的使用者始终是人。过去五十年，服务器是给人配置的，部署按钮是给人点的，日志是给人读的。现在，Claude Code 贡献了 AI 发起部署量的75%，Lovable 和 v0 合计6%，Cursor 约1.5%。这些编程工具不是在"辅助"开发者——它们在独立完成从代码生成到生产部署的完整闭环。

这不是渐进优化。当 AI 发起的部署有20倍概率调用推理 API，说明这些工具在构建的软件形态本身就与传统应用不同——它们是 AI-native 的，需要长时间运行的任务、多步骤编排、模型路由和沙箱化代码执行。传统 CI/CD 管道、云控制台和运维流程没有为这种负载设计过。

三层架构：从部署表面到自治系统

Vercel 在文章中提出了一个三层进化框架。它不是产品功能清单，而是一个理解"基础设施如何被 AI 编程倒逼升级"的分析结构。企业 AI 应用跨平台落地的实践也印证了这一点：单点工具的效率提升不等于系统能力的升级，基础设施层的变化才是杠杆点。

第一层：可编程的部署表面

核心问题：AI 写完代码之后，能不能不经过人类操作就直接部署、验证、上线？传统路径里布满人工断点——Terraform 状态文件要手动 apply，云控制台要点确认按钮，preview 环境要等人审批。Vercel 的做法是把 CLI、API、MCP server 和 git 集成为一个可编程调用的部署表面：生成代码 → 开 PR → 自动生成 preview URL → 机器自行验证输出 → 合入生产。全程不需要人类触碰控制台。

关键不是"自动化部署"，而是"机器原生可调用的部署"。两者的区别在于：前者是人类配置好规则后自动执行，后者是机器自主发起、自主验证、自主决策。

第二层：AI 负载的原生运行环境

Serverless 时代的典型负载是短生命周期请求：函数执行、缓存读写、边缘响应。AI 编程任务的负载完全不同——需要长时间保持状态的执行、多步骤编排、跨模型路由、推理成本控制、不受信代码的沙箱隔离。Vercel 在这层打包了 AI SDK 6（引入智能体抽象）、Chat SDK、AI Gateway（统一模型端点 + 预算 + 重试 + fallback）、Fluid Compute（适配 AI 负载的延迟/并发/空闲特性）、Workflows + Queues（暂停/恢复/重试/状态保持）以及 Sandbox（隔离执行）。

这些组件的关键价值不在单个功能，而在共享上下文：代码、模型调用和运行时行为被纳入同一个可观测系统。这个共享上下文直接通向第三层。在AI Agent 从 POC 到生产的部署实战中我们也看到，缺少统一可观测层是从验证走向规模化的最大障碍之一。

第三层：基础设施自身的智能化

传统基础设施是单向管道：代码进 → 日志出 → 人类读日志 → 人类修代码。Vercel 描述了一个正在发生的反转：平台实时感知延迟尖峰或模型供应商丢请求，自动查询可观测数据、读取日志、检查源码、执行根因分析、在沙箱中验证修复方案。目前仍需人类审批，但方向明确——平台不再等着被操作，而是开始理解开发者的意图、观察系统实际行为、对标差异并自主响应。

这三层不是递进路线图，而是并行发生的。大多数企业当下能推动的是第一层，但第二层的能力缺失会直接制约 AI 编程工具在企业内的规模化落地。

企业自建 vs 采购：三层能力评估矩阵

CTO 面对的核心问题不是"Vercel 的方案好不好"，而是"我的团队在三层各自的能力水位是多少，缺口在哪里，补缺路径是什么"。决策可以参考AI Agent 开发外包的 7 个评估指标——同样的评估逻辑也适用于基础设施层的自建 vs 采购判断。下面这张矩阵提供了一个自评框架：

层次	评估维度	自建门槛	成熟采购选项	关键风险
第一层：可编程部署表面	CI/CD 可编程性、preview 环境自动化、GitOps 成熟度	中等。需要 API-first 部署管线，现有 Jenkins/GitLab 可改造但非原生设计	Vercel、Netlify、Cloudflare Workers	AI 绕过审批链导致合规风险
第二层：AI 负载运行环境	长时间执行、模型路由、成本控制、沙箱隔离	高。涉及多模型统一端点、推理成本归因、不受信代码执行安全	Vercel AI SDK + Gateway、LangGraph Cloud、自建 + MCP server	推理成本失控、供应商锁定、MCP 注入等安全漏洞
第三层：基础设施自治	可观测性深度、自动化根因分析、自愈能力	极高。需要全链路 trace + 代码级上下文 + 决策引擎	Vercel Observability（2026年仍以人工审批为闭环）	平台权限过大、误判级联、审计追踪不完整

一个务实的策略：第一层是所有团队都应该在2026年解决的基础题——让 AI 编程工具能部署，这是 ROI 最直接的一步。第二层取决于你的 AI 应用密度：如果团队已经在用 Claude Code、Cursor 或内部智能体做实质开发，第二层的投入优先级就显著上升。第三层目前更适合关注而非投入——它的成熟度和最佳实践还在形成中。

我们踩过的坑：AI 编程工具接入 CI/CD 的三个工程问题

2026年初，优码云（umayun）在给某金融行业客户交付一个智能体项目时，遇到了三个 CI/CD 管道与 AI 工作流对接的工程问题。这些问题的共同根源是：现有 CI/CD 系统是为"人类写代码 → 人类触发部署 → 人类验收"设计的，AI 编程工具的行为模式打破了这套假设。

坑一：身份模型的缺位

企业的 CI/CD 系统有一套严密的权限模型——谁可以触发 pipeline、谁可以合入 protected branch、谁可以审批生产部署。AI 编程工具在这个模型里没有位置。最初的做法是给它分配一个 service account，但这意味着拿到了远超所需的权限范围。最终方案是在 CI 系统中引入"限定作用域的 token"——限定仓库、限定分支、限定操作类型（仅 create PR / read logs / trigger preview deploy），并将所有操作写入独立的 audit trail。这不是权限配置问题，是身份模型的设计问题。

坑二：非确定性 vs 确定性预期

CI 管道的核心假设是同一输入产生同一输出——相同的 commit 触发相同的 build，可复现是质量的底线。但大语言模型的本质是非确定性的：同一个 prompt 在不同时刻可能生成不同的代码。当 AI 在 CI 流程中"自行修复 lint 错误然后重新提交"时，这个循环没有自然终点。解决方式不是压制非确定性（那压制了工具的价值），而是在 CI 中引入"收敛门禁"——连续两次 AI 修改后的差异低于阈值时自动通过，超过时升级到人工。这个机制本身还在迭代。

坑三：回滚链路断裂

当 AI 部署的代码出问题时，传统回滚路径是：人类判断严重性 → 定位问题 commit → 执行 revert。但编程工具可能在短时间内连续部署了多个服务——因为它不理解"金融核心交易系统周五下午不适合上线"这种隐含约束。回滚不只是 revert 一个 commit，而是需要理解它的决策链：为什么在那个时间部署了那个改动、影响了哪些上下游。当前的做法是给 AI 部署添加强制性冷静窗口（金融客户要求至少4小时），窗口期内所有 AI 部署停留在 staging，由值班工程师做最终确认。这不是优雅方案，但有效。

2026 下半年该做什么：CTO 的行动清单

基于三层框架和实际踩坑经验，以下是面向 CTO 的优先级清单。软件定制开发的 6 个关键决策点中讨论了类似的决策框架——在 AI 基础设施领域，决策逻辑同样适用：先评估现状，再定优先级，最后才选工具。

摸底 AI 部署占比。如果你的团队已经在用 Claude Code、Cursor 或 GitHub Copilot 的智能体模式，先搞清楚当前有多少部署是由 AI 发起或参与的。没有数据就没有优先级。
打通第一层。确保至少有一条从代码到 staging 的自动化路径供 AI 编程工具使用。这一步的工程投入不高（通常是对现有 GitOps 管线的一次改造），但决定了机器能否进入"自主验证"的正循环。
建立身份与权限模型。不要复用人类账号或宽泛的 service account。这是安全和合规的基底，越早做成本越低。
评估 MCP 策略。MCP 协议在2026年3月已达月下载9700万次、活跃服务器超10,000个，Anthropic 在2025年12月将其捐赠给 Agentic AI Foundation。所有主流 AI 实验室均已支持 MCP。但它不是没有争议——以色列 Ox Security 在2026年4月报告了 MCP 的架构级安全漏洞，影响超20万台服务器。评估时建议区分"使用 MCP client 接入外部工具"和"暴露 MCP server 给外部"两个场景，后者需要更严格的安全审查。
为第二层做储备。如果 AI 编程应用正在从辅助编码走向自主开发，提前评估模型路由、推理成本控制和沙箱执行能力。等 AI 编程工具数量从个位数涨到几十个再补这层，成本会高很多。
关注第三层但不急于投入。Vercel 的最新进展——2026年5月开源 Open Agents——说明基础设施自治的方向在加速，但距离企业级生产就绪还有距离。保持关注，把可观测性基建作为第三层的前置投入。

常见问题

Agentic Infrastructure 和传统 DevOps 基础设施有什么区别？

传统 DevOps 基础设施假设人类是触发者和决策者——自动化的是执行，不是判断。Agentic Infrastructure 的核心差异在于：AI 编程工具既是代码的生产者，也是部署的发起者和验证者。基础设施需要提供机器可编程调用的接口，而不是人类可点击的界面。

企业需要立即切换到 Vercel 这样的平台吗？

不需要。第一层能力可以通过改造现有 GitOps 管线实现——核心是让 AI 编程工具有一个 API-first 的部署表面。Vercel 提供了一体化方案，但如果你的基础设施已经在 AWS/Azure/自建机房上，改造现有管线比整体迁移更务实。关键不是用什么平台，而是有没有"机器可调用的部署路径"。

Coding agent 部署的安全风险怎么管？

三个关键控制点：一是最小权限（限定作用域的 token，限定仓库/分支/操作）；二是全量审计（独立于人类操作的 audit trail）；三是部署冷静窗口（金融等强监管行业建议不少于4小时的 staging 停留期）。安全不是阻止 AI 部署，而是让它可追溯、可回滚、可理解。

MCP 协议是 Agentic Infrastructure 的必然组成部分吗？

MCP 正在成为 AI 与外部系统通信的事实标准，但不是唯一选择——HTTP API、gRPC、Function Calling 各有适用场景。MCP 的优势在于标准化了"模型如何发现和调用工具"这一层，降低了集成成本。但安全社区发现的漏洞提醒我们：MCP server 侧的暴露需要极其谨慎的安全审查，不建议在未做充分隔离的情况下将 MCP server 直接暴露到生产环境。

小团队需要关心 Agentic Infrastructure 吗？

如果你的团队已经在用 AI 编程工具（哪怕只是一个人的项目），第一层能力就值得关注——哪怕是一台 VPS 上的 GitHub Actions + preview deploy，只要能给工具一条自动化验证路径，就能显著提升使用效率。Agentic Infrastructure 不是大厂专属，它的第一层对任何使用 AI 编程的团队都有 ROI。

参考

Vercel - Agentic Infrastructure（2026-04-09）
Cursor 3 发布：构建智能体工作区（2026-04-03）
MCP Protocol 2026: 97M Downloads, 10K Servers（2026-04-20）
Anthropic 将 MCP 捐赠给 Agentic AI Foundation（2026-02-10）
Ox Security 报告 MCP 设计缺陷（2026-04-17）
Vercel 开源 Open Agents（2026-05-05）

Agentic Infrastructure 解读：Coding Agent 接管 30% 部署后，企业 AI 基础设施的下一场变革