82% 的企业计划部署智能体应用,但外包市场会调 API 和能做生产交付的团队差距巨大。本文给出 7 个技术面试题,帮你筛出真正能打的团队。
2026 年,Gartner 数据显示 82% 的企业计划在 12 个月内部署智能体应用。但外包市场上「会调 API」的团队一抓一大把,真正能把系统做到日均万级调用、P99 延迟可控、故障可恢复的,不超过两成。选错一次团队,框架推倒重来的成本是开发投入的 3 倍——还没算业务机会成本。
面试外包团队时,第一个问题就够了:「LangGraph、CrewAI、AG2、Google ADK 之间你怎么选?为什么?」
2026 年的框架格局已经分化为四个明确赛道:LangGraph 走状态机路线,靠 checkpoint 支撑可审计的生产任务;CrewAI 走角色分工路线,日均驱动 1200 万次执行,适合业务原型快速落地;AG2 走多角色对话协商路线;Google ADK 走标准化互联路线,原生支持 A2A 协议。每个框架有各自的设计哲学和适用边界——不存在银弹。
真正做过生产交付的团队会给出选型理由:例如客户做审批流加工单分发,强流程控制场景选第一种方案,因为它的断点恢复和人机协同让每一步可审计;或者客户是电商运营团队,核心需求是市场分析加内容生成的多角色协作,选第二种方案因为角色-任务范式业务方更容易理解。
如果一个团队说「这些框架我们都用过」但讲不出在什么场景下选了 A 不选 B,基本只跑过 Demo。这个问题的过滤效果比简历上「5 年 AI 经验」可靠得多。
引用:learnagent.org 2026 框架横评指出选型已从「哪个最好」转向「哪个最适合场景」。博客园实战对比也证实框架选错成本可达开发的 3 倍。
Function Calling 是智能体的「手脚」,也是生产故障最密集的环节。Demo 阶段一个工具调用看起来就几行代码,进了真实环境三个问题会反复出现:
追问方法:「你们最近一次工具调用故障是什么时候?根因是什么?修了多久?」答不出来等于没维护过生产系统。
AI 应用的记忆不是「把聊天记录存数据库」那么简单。短期和长期记忆面对的是完全不同的工程约束:
| 维度 | 短期记忆(会话内) | 长期记忆(跨会话) |
|---|---|---|
| 核心问题 | 上下文窗口管理、Token 预算 | 信息持久化、检索效率、身份关联 |
| 技术方案 | 滑动窗口 / 摘要压缩 / 混合策略 | 向量存储 + 结构化存储双写 |
| 存储周期 | 分钟到小时级 | 天到年级,需持久化策略 |
| 典型坑 | 窗口满了直接截断,丢失关键上下文 | 用户换了设备/账号后记忆丢失 |
面试时直接问三个技术点:① 短记忆超出上下文窗口时用截断还是摘要压缩?② 长记忆存储是纯向量数据库(如 Milvus)还是向量 + PostgreSQL 双写?③ 跨会话的用户身份怎么持久化关联?
第一类框架(LangGraph)的内建 checkpoint 机制在状态持久化上优势明显——支持断点恢复和状态回溯,但代价是更高的工程复杂度。如果一个团队说「我们全存 Redis」,对他们来说「持久化」可能只是重启后数据还在——离生产级标准还很远。
智能体的输出不像传统 API——没有明确的 pass/fail。对话质量怎么量化?任务完成怎么判定?幻觉怎么识别?
生产级团队一定搭过至少一套评估管线,包含三个核心模块:
而且要区分离线评估(发版前跑固定测试集)和在线评估(生产流量采样 + 用户点赞/点踩信号)。追问方法:让团队展示评估 dashboard 截图。如果回答是「我们开发阶段测过了」,直接红牌。
智能体比传统系统更难做安全,因为它能自主调用工具。一个 prompt injection 就可能让它执行意料之外的操作。三个必查的安全层面:
LangGraph 的 human-in-the-loop 机制天然适合做操作层确认——在执行敏感操作前插入中断点等待人工审批。但输入审核和成本熔断通常需要自建或集成第三方安全 API。让团队解释他们具体怎么做这三层防护,而不是泛泛说「有安全机制」。
当系统给客户报了错误价格、拒绝了一个合理请求、或者在某个节点莫名其妙循环了三轮——你需要的不只是「模型幻觉」四个字。
调用链追踪是底线要求。不管是接 LangSmith 还是自研方案,至少要能回答三个问题:① 每次 LLM 调用的完整 prompt(含系统提示、上下文、用户输入)是什么?② 每一步工具调用的入参和返回值是什么?③ 能不能按 session_id 串起完整决策链路?
如果一个团队说「我们看日志就够了」,说明他们还没经历过「为什么下午 3 点 15 分系统给 VIP 客户报了 0 元价格」这种级别的故障排查。更详细的架构讨论见 AI 智能体生产部署实战。
这是七个指标里最硬的一条,也是最容易筛掉「PPT 外包」的一条。要求展示的不是架构图,是真实生产环境的监控数据:
一个日均 1000 次调用、P99 延迟 3 秒的系统,和一个日均 10 万次调用、P99 延迟 800ms 的系统,工程复杂度差了一个量级。前者可能是一台服务器上的单进程应用,后者需要负载均衡、队列削峰、并发管理、缓存策略——这些才是「生产级」的真正含义。
如果团队拿不出这三个数字中的任何一个,可以合理推断他们没有维护过生产系统超过一个月的经验。优码云的 熵衍智能体平台就是一个面向日均万级调用场景设计的企业级案例,包含完整的状态管理与可观测性方案。
把这七个指标做成面试评分卡,每个 1-5 分,加权求和后低于 21 分建议直接 pass:
| 指标 | 权重 | 1 分(Demo 级) | 3 分(可用级) | 5 分(生产级) |
|---|---|---|---|---|
| 框架选型 | 1.5 | 「都用过」 | 能说取舍理由 | 有场景×框架映射矩阵 |
| 工具调用 | 1.5 | 接了一个 API | 有重试+校验 | 并发聚合+熔断+降级 |
| 记忆与状态 | 1.0 | 存 Redis | 有短期/长期分区 | checkpoint+双写+跨会话 |
| 评估体系 | 1.0 | 人工测测 | 有离线测试集 | 离线+在线 pipeline + dashboard |
| 安全护栏 | 1.0 | 「做了安全」 | 输入审核或操作确认之一 | 输入+操作+成本三层覆盖 |
| 可观测性 | 1.0 | 看日志 | 有调用链记录 | 全链路追踪+决策回溯+告警 |
| 交付案例 | 2.0 | PPT 架构图 | 有脱敏截图 | 调用量+延迟+MTTR 全公开 |
满分 45 分(加权后),建议及格线 21 分。生产级团队通常在 30 分以上。其中「交付案例」权重最高——既因为它是前六个指标的真实验证,也因为 PPT 造假成本太低。
2026 年市场行情:单场景应用(如客服问答、内部知识库检索)MVP 阶段预算 8-20 万,生产级交付(含评估体系、可观测性、安全护栏)30-80 万。多角色协作系统(3+ 子智能体协同)从 50 万起步到 200 万+ 不等。价格差异主要来自四个变量:模型调用成本(是否私有化部署)、工具集成复杂度、状态管理方案、安全合规要求。低于 5 万的「全套解决方案」基本是套壳 Demo。
2026 年一个能做生产级 AI 应用的全栈工程师年薪已超 50 万,最小可行团队(1 架构师 + 2 后端 + 1 算法)年成本 250 万起步。如果你的应用是核心业务系统且需长期迭代,自建合算;如果是一次性项目或需 3 个月内上线,外包更现实。也可以走中间路线——外包做 MVP 交付 + 知识转移,内部接手迭代。具体选型可参考 企业 AI 应用开发实战指南。
三个快速过滤法:① 看他们有没有公开技术博客——持续输出深度内容(非营销文)是工程能力的信号;② 要求演示生产环境的监控 dashboard,而非 Demo 界面;③ 直接问「你们搞砸过的最严重的项目是什么?怎么救回来的?」——能坦诚讲失败案例的团队比只会讲成功故事的靠谱得多。
合同里至少要约定四个量化指标:任务完成率(端到端,建议 ≥ 85%)、P99 延迟(建议 ≤ 2s)、幻觉率(建议 ≤ 5%)、可用性 SLA(建议 99.5%+)。验收方式是用业务方提供的真实测试集跑一轮,而不是用开发方自己的测试数据。
AI 智能体外包市场的信息不对称比传统软件开发更严重——因为系统的「能用」和「好用」之间隔着六个工程层面的深坑,而 Demo 阶段这六个坑一个都看不见。本文列出的七个指标本质上就是一个技术面试提纲:找一个下午,让候选团队逐个回答,该打分的打分,该看 dashboard 的看 dashboard。一个真正做过生产级交付的团队,不会怕这些问题——他们会兴奋,因为这正是他们每天都在解决的事。
优码云(umayun)从 2024 年开始专注智能体生产级交付,覆盖客服系统、代码审查、电商运营等场景。了解我们的技术方法论,或直接 联系我们 获取针对你业务场景的技术评估方案,也可以 查看交付案例,了解真实环境中的日均调用量与架构设计。