上周搜索巨头年度 I/O 大会把智能体推向消费级——24/7 全天候运行、订阅价砍掉 60%。同一周,Anthropic 旗舰模型 SWE-Bench 冲到 87.6%,Cursor 单任务成本压到 1 美元以下,OpenClaw 以 30.2 万星登顶 GitHub。
编者按:上周搜索巨头年度 I/O 大会把智能体推向消费级——24/7 全天候运行、订阅价直接砍掉 60%。同一周,Anthropic 旗舰模型在 SWE-Bench 上冲到 87.6%,Cursor 用后训练路线把单任务成本压到 1 美元以下。再加 GitHub 上一个跑出 30.2 万星的开源项目,本周信号很明确:AI 编程正从"好用"跨入"能打",选型窗口在收窄。
5 月 19—20 日,搜索巨头的年度开发者大会释放了本届最重信号:AI 不再是功能插件,而是产品本身。该公司的 AI 应用月活已突破 9 亿,同比翻倍;每月处理 9.7 万亿 Token。核心发布有三:Gemini Spark——运行在云端虚拟机上的 24/7 个人助手,电脑关机后仍可持续工作,高风险操作需用户批准,下周向美国 Ultra 订阅用户开放;3.5 Flash——输出速度 289 Token/秒,是其他前沿模型的 4 倍,向全球免费开放;AI Ultra 订阅从 $250/月大幅降至 $100/月,含 20TB 云存储和 YouTube Premium。搜索被彻底重构,AI 模式由 3.5 Flash 驱动。(5 月 4 日早报曾跟进本次大会的定档预告。)
来源:WoLoveAI · 新浪财经
4 月 16 日发布的 Opus 4.7 持续引发关注。SWE-Bench Verified 得分从上一代的 80.8% 跃升至 87.6%,意味着它能自主解决绝大多数真实 GitHub Issue。上下文窗口扩至 100 万 Token,新增 xhigh 努力层级和 Task Budgets(自主分配 Token 预算),后台执行能力可在隔离 Git Worktree 中运行。该团队同时推出多角色协作的研究预览——我们在5 月 11 日早报中详细讨论过智能体协作的落地路径。结合其编程终端工具已覆盖 30 万+ 企业客户、年化收入 25 亿美元的数据,这家公司正在把 AI 编程从开发者工具升级为企业基础设施。
来源:WoLoveAI · SegmentFault 思否
5 月,开源项目 OpenClaw 在 GitHub 上突破 30.2 万星标,超越 Linux 内核成为平台历史最高星标项目。这标志着 AI 工具生态已从"模型驱动"切换到"智能体 + 工具链驱动"——开发者不再只盯着哪个模型更强,而是看整套系统能不能端到端完成任务。该项目前身已有一定社区基础,此次里程碑进一步验证了开源框架正在成为主流技术选型。
来源:SegmentFault 思否
Cursor 发布 Composer 2.5,保持 Kimi K2.5 底座不变,将 85% 计算量投入后训练与强化学习。结果:SWE-Bench Multilingual 达 79.8%(接近 Opus 4.7 的 80.5%),而单任务成本低于 1 美元——竞品通常是其数倍。技术路线值得注意:合成任务数量达上一代 25 倍,采用"功能删除"法自动生成可验证训练信号。这一策略实质上是在模型层依附他人的结构性劣势下,通过工程优化实现了差异化竞争。
来源:WoLoveAI
5 月 14 日,ChatGPT 开发商宣布 Codex 正式登陆 iOS 和 Android 版 ChatGPT,免费用户也可使用。功能覆盖移动端代码审查、编辑、部署及远程 SSH 连接。Codex 周活用户已突破 400 万。当编程助手开始处理几十分钟甚至数小时的复杂任务时,手机端成为监控和接力的刚需场景——这让 AI 编程从桌面端利器走向全场景开发伴侣。
来源:WoLoveAI
几条新闻串在一起看,三个趋势在加速:
第一,智能体从「功能」变成「产品」。I/O 大会的 Spark 不是在模型上加一层壳,而是把自主系统作为一个独立 SKU 推向消费者——有独立定价、独立入口、独立运行环境。这对企业技术决策者的启示是:如果你的 AI 规划还停留在「接入一个 API」,你已经落后了一个产品代际。
第二,编程智能体逼近全自主临界点。87.6% 的 SWE-Bench 得分意味着什么?意味着大多数 GitHub Issue——那些真实的、有上下文依赖的、需要跨文件修改的工程问题——AI 已经能自主解决。优码云在实际项目交付中观察到的趋势一致:过去一年,客户对 AIcoding 项目的期望已经从「AI 辅助写函数」变成了「AI 自主完成模块开发」——我们在企业 AIcoding 转型实战指南中拆解过从选型到落地的完整路径。选型上,是选择模型能力最强的方案,还是选择成本最优的方案,抑或是选择开源避免厂商锁定——这个问题没有标准答案,但窗口期不会太长。
第三,开源生态进入自增长阶段。OpenClaw 跑出 30.2 万星不是偶然。当开源框架达到临界规模,贡献者网络和插件生态会形成飞轮——商业产品必须用差异化服务(安全合规、企业级 SLA、私有部署)来构建护城河,而不是靠模型能力本身。
问:3.5 Flash 免费开放,对我们选型有什么影响?
答:它的定位是高频非核心任务——代码注释生成、文档处理、API 查询——用极低成本覆盖长尾场景。核心工程任务仍然需要 Opus 4.7 或 GPT-5.5 级别的模型。建议的模型组合策略:高频轻任务走 3.5 Flash(免费),核心复杂任务走旗舰模型。
问:Cursor Composer 2.5 的后训练路线和 Opus 4.7 的原生路线,哪个更适合企业?
答:取决于你更关心成本还是天花板。Composer 2.5 单任务 < $1、接近旗舰性能,适合预算敏感或高频调用场景。Opus 4.7 的 87.6% 得分和 100 万 Token 上下文在处理超复杂工程任务时仍有明显优势。实际项目中两者可以组合使用。
问:OpenClaw 能替代商业编程工具吗?
答:目前是社区驱动项目,适合有自建能力和不想被厂商锁定的团队。但企业级场景——安全合规审计、SLA 保障、私有化部署支持——商业方案仍有不可替代性。