AI早报 5.27：编程模型前四、API降价75…

过去48小时，AI行业出了四件值得企业技术决策者关注的事——Code Arena放榜、模型降价、搜索入口重构、编程Agent进入Gartner象限。每条单独看都是常规新闻，放在一起看，指向一个正在加速的趋势：编程模型不再只是开发者玩具，它正在变成企业基础设施的一部分。

千问3.7编程评测1541分，国产模型首次挤入全球前四

5月26日凌晨，全球第三方编程盲测平台Code Arena（由LMArena推出）公布最新排名：阿里旗舰模型Qwen3.7-Max以1541分冲入全球前四，超越GPT-5.5、Gemini 3.5 Flash、GLM-5.1和Kimi-K2.6，仅次于Claude系列的Opus 4.7 Thinking、Opus 4.7和Opus 4.6，在大模型厂商维度排名全球第二。（量子位）

和传统代码基准测试不同，Code Arena的题目由开发者出题，要求模型从零生成完整可交互的Web应用，再由用户对匿名模型的生成结果进行两两PK投票——这意味着评测的不是刷题能力，而是「真把东西做出来」的工程能力。千问3.7也是目前该榜单上唯一突破1540分大关的国产模型。（IT之家）

更值得关注的是该模型在长程任务上的表现：据发布信息，它可在数小时内端到端交付通常需要专业团队2周完成的复杂项目，并能持续运行35小时、累计超1000次工具调用的长程任务。多位海外开发者在社交平台上评价其"长程自主执行能力令人印象深刻"。

企业该关注什么：编程模型的中国选手已经从"能跟上"进化到"能竞争"，在选型时抛开"必须用海外模型"的默认假设，实测对比国产旗舰的成本和效果，可能比想象中更划算。

DeepSeek反向操作：V4-Pro API永久降至1/4价

在全球同行纷纷涨价的背景下，DeepSeek在5月22日宣布：V4-Pro模型API在5月31日结束2.5折优惠后，价格正式调整为原定价的1/4——换句话说，相当于把优惠期价格变成了永久定价。（IT之家）

具体数字：缓存命中输入低至0.025元/百万tokens，缓存未命中输入3元/百万tokens，输出6元/百万tokens。对比原价（命中0.1元、未命中12元、输出24元），降价幅度惊人。（新浪财经）

这轮降价的底气来自技术效率：据该公司披露，V4-Pro单次推理算力消耗已降至前代的27%。本质逻辑是用架构层面的效率提升换取定价权，而非烧钱补贴——这与2024-2025年那波"赔本赚吆喝"的价格战有本质区别。此前市场对该公司的关注焦点集中在融资层面（详见5月11日早报关于其500亿融资的分析），而这次降价说明技术效率改进的速度可能比资本市场预期的更快。

企业该关注什么：模型推理成本持续走低，对重度调用场景（代码审查Agent、自动化测试流水线、CI/CD集成）的ROI模型正在快速改善。之前因成本顾虑没上线的内部工具，现在值得重新算账。

Google搜索25年最大改版：AI Mode月活破10亿

5月20日Google I/O 2026大会上，搜索产品线迎来自1998年问世以来最大幅度的改版。三条核心更新：

Gemini 3.5 Flash成为AI Mode默认模型：AI Mode月活已突破10亿，AI Overviews触达25亿用户。新模型在几乎所有基准测试中超越前代Gemini 3.1 Pro，输出速度是同级的四倍。（Inside）
搜索框重新设计：支持图片、文件、视频甚至Chrome标签页作为输入，AI驱动的查询建议系统替代传统自动补全，帮助用户构建更复杂的搜索语句。（安兔兔）
信息Agent（Information Agents）上线：用户可在搜索中创建24/7后台运行的监控Agent，设定参数后自动追踪特定领域变化，条件触发时主动推送整合摘要。预计今年夏季上线。

同时发布的Generative UI技术——由搜索团队与DeepMind联合开发——能在搜索结果页即时生成交互式可视化界面。比如搜"黑洞如何影响时空"，不再只返回链接，而是直接呈现可操作的互动图表。

企业该关注什么：搜索从"被动检索"转向"主动执行任务"，意味着传统的SEO流量逻辑正在被解构。企业内容不仅要可被检索，还要可被AI Mode切片引用、被信息Agent识别为可信源。

编程Agent进入企业采购清单：Gartner首次发布魔力象限

5月22日，OpenAI宣布进入Gartner 2026年企业AI编码Agent魔力象限的领导者象限。Codex目前每周服务超400万用户，企业客户包括Cisco、Datadog、Dell Technologies和NVIDIA，已覆盖代码审查、测试覆盖、事件响应和大型代码库推理等软件开发生命周期场景。（AI Agent社区）

与之同步，这家AI巨头与Dell达成合作，将Codex推向混合和本地化企业部署环境——这意味着编程Agent不再只是SaaS订阅，而是可以跑在企业自己的基础设施上。（Cursor官方博客）

同期进入该象限领导者区间的还有Cursor，在"愿景完整性"维度上位居最右侧。Gartner此次设立企业AI编码Agent魔力象限本身就是一个信号：编程Agent已经被纳入企业IT采购的正式评估框架，而不再只是开发者个人工具。

我们的判断：编码Agent的竞争正从"能不能写代码"转向"能不能嵌入真实交付流程"。企业关心的不再是Agent单次生成多流畅，而是它能否被审计、被限制权限、被回滚、被持续改进。软件工程本身就有测试、代码审查、CI、权限和回滚机制——Agent进来后不是凭空发明流程，而是嵌入已有工程纪律。

今日快讯

Gartner发布中国AI企业25强：5月26日，Gartner从市值前1000家中国上市企业中评选出25家处于AI应用前沿的公司，涵盖制造、金融、医疗、零售等行业。（Gartner）
深圳AI规上企业超2600家：截至2026年4月，深圳AI核心产业营收达2200亿元，累计发布近300个"城市+AI"应用场景清单，产业密度全国领先。（深圳政府在线）

对中国软件企业的启示

把这四条新闻放在一起看，三条信号对企业技术决策者至关重要：

第一，模型成本持续走低，但降价的本质变了。DeepSeek这轮降价靠的是单次推理算力消耗降至前代27%，属于技术效率驱动的定价权，而非补贴。这意味着价格下行不是短期促销，而是结构性趋势。对于正在规划AIcoding工具链的团队，原先"等价格稳定再上"的观望策略可能反而错失窗口——因为价格只会继续下行，而先发团队积累的工程经验是价格买不来的。优码云在企业AI应用开发90天转型路线中测算过，一个15人团队全年重度使用编程Agent的推理成本已从年初的约12万元降至目前的约3万元。昨日早报中提到的300亿融资潮也印证了资本对这一赛道的判断。

第二，AI搜索入口正在重构流量逻辑。AI Mode月活10亿、搜索框支持多模态输入、信息Agent后台监控——三者叠加意味着用户获取信息的方式从"主动搜索→点击链接"变成"提问→AI整合答案"。对企业官网和技术博客而言，内容不仅要可被检索，更要可被AI切片引用。结构化数据（FAQPage Schema、HowTo Schema）、明确的数字证据、权威外链引用，这些不再是锦上添花，而是被AI Mode引用的准入门槛。

第三，编程Agent加速进入企业采购清单。Gartner为这个品类单独设立魔力象限，头部厂商开始推动混合部署方案——编程Agent正在从"开发者个人订阅"跨越到"企业IT正式采购"。这意味着接下来半年，企业选型时不仅要看模型写代码的能力，还要看治理能力（审计日志、权限模型、人工审批节点）、安全合规（数据不出境、私有化部署）和交付稳定性（SLA、技术支持响应时间）。我们在企业AIcoding桌面端工具选型指南中对比过主流方案在这些维度的差异，值得在采购评估前参考。

一个值得警惕的盲区：当编程Agent的能力本身趋同时（千问3.7、Claude、GPT-5.5、Gemini 3.5 Flash在编程能力上的差距正在缩小），选型的胜负手会从模型能力转移到工程集成能力——谁能把Agent接入现有CI/CD流水线、谁能在权限受限的环境里稳定运行、谁能产出可审计的操作记录。这些才是企业真正买单的理由。

参考来源

量子位 - 编程权威榜单：千问3.7仅次于Claude，阿里全球第二（2026-05-26）
IT之家 - 国产第一：阿里Qwen3.7-Max模型AI编程能力超Claude Opus 4.6（2026-05-26）
IT之家 - DeepSeek-V4-Pro API宣布永久降价，调整为原定价的1/4（2026-05-22）
新浪财经 - DeepSeek-V4-Pro API降价通知（2026-05-23）
Inside - Google I/O 2026：AI Mode月活破10亿、搜索框25年最大改版（2026-05-20）
安兔兔 - Google I/O 2026发力AI（2026-05-20）
AI Agent社区 - OpenAI进入Gartner企业编码Agent领导者象限（2026-05-25）
Gartner - 评选出25家处于AI应用前沿的中国领先企业（2026-05-26）
深圳政府在线 - 深圳AI规上企业超2600家（2026-04-27）

AI早报 2026年5月27日：Qwen3.7编程闯入全球前四，DeepSeek永久降价