Electron+本地LLM推理：桌面端AI应用…

引言

客户端 AI 推理正从「能不能跑」进入「怎么跑好」的工程化阶段。本文基于我们为某工业检测客户交付的真实项目——在 Windows 10 工控机上跑通 Electron + llama.cpp 本地推理——拆解技术选型、性能踩坑与离线场景适配的完整路径。

客户端 AI 应用当前有三条主流路线：

我们为某工业检测客户选的第二条——基于 Chromium 的桌面壳 + llama.cpp 绑定 + WebWorker 隔离，模型量化到 4GB，在老旧 Win10 工控机上稳定跑通。

核心架构：断网时本地推理，联网后增量同步到云端知识库。本地 SQLite 存推理日志，联网时通过 CRDT 合并到服务端 PostgreSQL。

i5-12400 上 7B 量化模型：首 token 延迟 1.2s，生成速度 18 token/s，内存峰值 3.7GB——工控机场景完全可用。

反面教训：最初用 Python + PyInstaller 打包 exe，体积 2.1GB、冷启动 30 秒，用户无法接受。转向 Chromium 壳 + 原生 C++ 绑定后，安装包缩到 350MB，启动 4 秒。

计划在 2026 年落地客户端 AI 的团队，建议从三条主线推进：

A：PoC 阶段 2-4 周、3-5 人核心团队，预算 30-50 万；上线后月运维成本约为研发投入的 15%。

A：核心差异在「不确定性」——模型输出非确定，质量门禁、灰度策略、回滚机制比代码更重要。

A：涉及客户数据或行业知识库的核心流程自研值得；通用对话等场景直接用 SaaS 性价比更高。

客户端 AI 推理已过「是否要做」阶段，进入「怎么做对」阶段。找一个有真实 AI 工程经验的合作伙伴，比自己摸索 6 个月省 70% 的踩坑成本。如果你的团队在评估相关项目，欢迎直接联系我们，或参考更多落地案例了解已交付项目的真实数据。