企业级 AI 工作流平台落地实战 · 多模型编排…

为什么企业需要自己的 AI 编排平台

2025 年到 2026 年，我们观察到同一个模式反复出现：企业试用 ChatGPT / Claude / 豆包之后，很快发现通用对话助手解决不了业务问题。客服工单需要查内部知识库、风控决策需要调多个 API、内容生产需要走审批流——这些场景需要的不是"一个聊天框"，而是一个能编排模型、调用工具、对接现有系统的 AI 工作流平台。

2025 年初，我们开始为一家企业级客户搭建这样的平台。项目从 PoC 起步，到 2026 年已经迭代了多个版本，支撑客服、风控、内容生产三条业务线。这篇文章把架构选型、踩坑和工程取舍写出来。

架构概览：FastAPI + Next.js 全栈

技术选型上我们选了 FastAPI 做后端、Next.js 14 做前端，PostgreSQL + Redis 做数据层。不是最"潮"的组合，但经过验证：FastAPI 的 async 原生支持对 LLM 流式输出友好，Next.js 的 App Router 在 SSR 和客户端状态之间平衡得不错。

核心模块分四层：

模型编排层：统一接口对接 OpenAI / Anthropic / 自有模型，支持按任务类型自动路由
工具调用层：注册式工具市场，每个工具独立鉴权与限流
任务执行层：规划 → 工具调用 → 结果反思 → 再规划的循环，支持长程任务中断恢复
租户与计费层：多租户隔离 + 积分计费 + 审计日志

第一个坑：多模型编排不是简单的 API 封装

我们一开始的想法很直接：每个模型封装一个 adapter，上层统一调用。跑了两周发现三个问题：

不同模型的输出格式差异大：有的原生支持 tool calling，有的需要 prompt 注入。统一成 ReAct 格式后，部分模型的 tool 调用准确率掉了 15%。
流式输出的中断处理：长任务执行中模型可能超时或返回异常 token，前端需要做流式缓冲和重试逻辑。
成本管控：不同模型价格差 10 倍，用户选错模型可能导致积分快速耗尽。我们后来加了"模型推荐引擎"——根据任务复杂度自动推荐性价比最高的模型。

最终方案是每个模型保留独立的 prompt 模板和 tool 定义，上层用统一的 Task 抽象层做编排，不做"一刀切"的 adapter。

第二个坑：RAG 检索增强的精度问题

平台内置了 RAG 知识库功能，让 AI 工作流能检索企业文档。初期用 bge-m3 做 embedding，1024 维向量存 PostgreSQL pgvector。上线后发现：

用户问"去年的合同审批流程"，检索结果经常返回"合同模板"而不是"审批流程"
长文档分段后，关键信息被切碎，检索不到

我们做了两轮优化：第一轮加 query 重写（把口语化问题转成关键词组合），第二轮加 reranker 对 top-20 结果重排。检索准确率从 47% 提到 89%。这个数字我们在官网公告里也提过——不是编的，是真实 A/B 测试结果。

第三个坑：长程任务的可靠性

AI 工作流执行一个复杂任务（比如"分析本月销售数据并生成报告"）可能需要 5-10 步工具调用。初期我们让模型一次性规划完所有步骤，结果：

第 3 步调用数据库返回空结果，后续步骤全部基于错误假设
模型在长上下文中"忘记"了前面的中间结果

改成"规划一步、执行一步、反思一步"的循环模式后，任务完成率从 62% 提升到 91%。代价是执行时间延长了 30%，但对企业场景来说可靠性比速度重要。

积分计费与多租户的设计取舍

平台需要支持多企业使用，每个企业下多个用户。计费按 token 消耗折算成积分。设计上几个关键决策：

预扣 vs 后扣：我们选了预扣——任务开始时先冻结预估积分，执行完按实际消耗结算。避免用户发起大量任务后积分不足。
租户隔离：数据层用 schema 隔离（PostgreSQL 每个租户一个 schema），而不是 row-level security。查询性能更好，运维复杂度可接受。
审计日志：每次工具调用、每次模型请求都记录完整入参和出参。初期觉得冗余，后来发现排查问题时是救命的设计。

这套方案不适合什么场景

不是所有场景都适合上 AI 工作流平台。我们遇到过两个反例：

简单问答：如果只是"查一下员工手册第 3 条"，RAG + 单次模型调用就够了，不需要编排。上了编排反而增加延迟和失败率。
实时性要求极高的场景：规划-执行-反思循环天然有延迟（5-30 秒），不适合 API 网关级别的毫秒响应需求。

总结

企业级 AI 工作流平台的核心不是模型能力——模型能力是底座，真正决定项目成败的是工程细节：多模型编排的兼容性、RAG 检索的精度、长程任务的可靠性、多租户的隔离与计费。这些没有银弹，只能一个一个坑踩过去。

我们把这个平台的经验沉淀成了可复用的工程框架。如果你正在评估是否要自建，或者已经在踩类似的坑，欢迎来聊。

企业级 AI 工作流平台落地实战：从多模型编排到生产部署