6月9日,头部模型企业同时发布Fable 5与Mythos 5,前者面向公众、后者受限开放;同期WWDC落幕、太空IPO倒计时、Gemma 4 12B开源、小米MiMo突破1000 tokens/s——模型能力与工程化同时加速的一周。
6月9日这一天,头部模型企业同时放出两款旗舰——面向公众的通用版和仅限获批客户的受限版,定价较预览版直接减半。同一周内,WWDC 落幕、太空探索公司 IPO 进入 48 小时倒计时、Gemma 4 12B 以无编码器架构开源、小米 MiMo 在万亿参数模型上首次突破每秒千 token 输出。模型能力跃迁与工程化落地正在同一个时间窗口内加速。
6 月 9 日,头部模型企业正式发布 Fable 5 和 Mythos 5,这是该公司首次将"神话级"模型向公众开放。两款旗舰共享同一底层能力,区别在于通用版内置安全分类器、面向所有开发者;受限版不含分类器、仅通过 Project Glasswing 向获批客户提供,在药物设计等场景中实现了约 10 倍加速(来源)。
定价层面:输入 $10/百万调用量,输出 $50/百万调用量,相比此前预览版降幅过半。两款旗舰均支持 100 万上下文窗口、单次最高 128k 输出。一个值得关注的细节——该公司披露约 80% 代码库已由自研模型自主生成(搜狐),意味着模型开发流程本身的 AI 渗透率已达到新高度。
企业视角:通用安全版 + 受限高能力版的双轨策略正在成为头部模型企业的标配,企业在选型时需要评估的不再只是模型性能,还包括安全分类器对特定业务场景的"误拒率"——通用版的拒绝机制可能在合规要求高的金融、医疗场景中反而是优势。
6 月 8 日开幕的 WWDC 2026 上,该手机制造商发布了全新 Siri AI、下一代 Apple Intelligence(底层首次引入 Gemini 技术),以及 iOS 27、iPadOS 27、macOS 27 等全系操作系统(Apple Newsroom)。Siri 从传统语音工具被重构为可读取屏幕内容、跨应用执行多步骤任务的 AI 助手——与我们在昨日早报中对 WWDC 的前瞻判断一致,Siri 的这次改版本质上是一次底层架构重写。
但市场反应偏冷——当日股价收跌 1.9%。分析人士认为,尽管该制造商迈出了 Siri 重构的关键一步,但引入搜索巨头的 Gemini 技术本身也被解读为自研 AI 能力仍未追上的信号(RedShark News)。
行业警示:操作系统级 AI 助手正在成为标配,手机制造商的入场意味着"AI 功能"不再是差异化卖点,而是基础设施。对第三方应用开发者而言,需要思考的是:当系统级 AI 能直接读取屏幕、操控应用时,独立 App 的 AI 功能壁垒还剩多少?
太空探索公司已确定 6 月 12 日在纳斯达克挂牌,代码"SPCX",发行价每股 $135,发行约 5.556 亿股,募资 750 亿美元——这将轻松超越 2019 年沙特阿美 294 亿美元的纪录,成为史上最大 IPO。按发行价计算,公司估值约 1.75-1.8 万亿美元(新浪财经)。
此次发行股份仅占全部流通股的 4.2%,剩余 95.8% 由 CEO 马斯克及其他内部股东持有。募资用途包括 AI 研发和发射业务扩展。这场 IPO 的另一个影响:为后续头部模型企业和聊天产品开发商的上市铺平了估值参照系——此前中国大模型五月融资超 70 亿美元的热潮,正是在这一估值预期下展开的。
资本市场信号:750 亿美元的募资规模意味着公开市场对"AI + 航天"交叉叙事的定价能力正在被极限测试。如果首日表现稳健,将显著降低后续 AI 企业的 IPO 阻力;如果破发,一级市场估值体系可能面临连锁调整。
6 月 4 日,搜索巨头旗下 DeepMind 团队发布 Gemma 4 12B——首个砍掉独立编码器、让原始音画直通大模型的多模态开源模型。传统方案用 ViT 编码器做"翻译",Gemma 4 12B 以 35M 轻量嵌入替代数百兆编码器,显存需求从 15GB 压到 9GB,16GB 笔记本即可本地运行。Apache 2.0 开源(钛媒体)。
定位介于 E4B 与 26B MoE 之间,但无编码器架构使其多模态理解能力在部分场景中直接挑战 26B 型号。
开发者启示:12B 参数 + 16GB 显存 + Apache 2.0 的组合,意味着企业可以在完全不依赖云服务的情况下部署具备多模态理解能力的私有模型。对于数据合规敏感行业(医疗影像、工业质检),这可能是比云端 API 更现实的选择。
6 月 9 日,企业 AI 公司 Cohere 发布其首个开源编程模型 North Mini Code——30B 总参数、仅 3B 活跃参数的 MoE 架构,Apache 2.0 许可,256K 上下文。SWE-Bench Verified pass@10 达到 80.2%,在同类小参数编程模型中处于前列(Cohere Blog)。
实际工程价值在于效率:在同等并发和硬件条件下,输出吞吐量达 Devstral Small 2 的 2.8 倍,token 间延迟低 30%。1 张 H100 即可运行。
落地建议:3B 活跃参数意味着推理成本极低,适合嵌入 CI/CD 流水线做自动化代码审查、测试生成等高频任务。但 MoE 架构的微调门槛比 Dense 模型高,团队需要评估自训练成本与直接使用社区版本的权衡。
6 月 8 日晚,小米 MiMo 团队与 TileRT 联合推出 MiMo-V2.5-Pro 的 UltraSpeed 模式,在通用 GPU 上实现万亿参数(1T)模型输出速度首次突破 1000 tokens/s,峰值可达 1200 tokens/s。定价为原版的 3 倍、速度约 10 倍提升(新浪财经)。
整套方案不依赖定制芯片,仅使用常规 8 卡 GPU 服务器即可稳定运转。采用申请制限时开放(6 月 9 日至 23 日),每位用户每日最多 10 次入队、单次会话上限 30 分钟。
怎么看:1000 tokens/s 对实时对话类产品(客服、语音助手)意味着"几乎无等待"的体验拐点。但限时体验 + 申请制的策略也说明高速推理的供给仍然稀缺——企业在规划产品时需要把推理速度的"稳态供给"和"峰值 demo"分开评估。
同样在 6 月 9 日,该头部模型企业宣布其托管智能体平台新增两项能力:定时部署(cron schedule)和环境变量保险库(vault)。前者让智能体按 cron 表达式自动触发会话,无需开发者自建调度器;后者允许注册 API 密钥与环境变量绑定,智能体在沙箱中只能看到占位符,真实密钥在网络边界注入,模型永远不接触明文(TechTimes)。
日本乐天已在生产中使用定时部署:各业务团队通过定时智能体分析电子表格、自动生成周报和月报。"产品经理不需要建分析仪表板就能看到应用健康状况,"乐天 AI 业务总经理 Yusuke Kaji 表示。
我们的判断:定时部署 + 密钥保险库解决了智能体从"演示"到"生产"的两个最大工程障碍——无人值守触发和凭证安全。对于已在该平台生态中构建智能体的企业,这两个特性可以直接删掉自建的调度层和密钥管理层代码。这与聊天产品开发商秘密递交 IPO 招股书时行业讨论的主题一脉相承:AI 企业正在从"秀能力"转向"跑生产"。
| 信号层 | 本周事件 | 对企业的含义 |
|---|---|---|
| 模型能力跃迁 | 双旗舰发布,定价减半 | 旗舰模型成本快速下降,以模型"用不起"为由推迟 AI 投入的窗口正在关闭 |
| 工程化门槛降低 | Gemma 4 12B 16G 可跑、North Mini Code 3B 活跃、托管智能体定时部署 | 私有化部署 + 定时自动化 + 低推理成本三要素齐备,小团队也能构建生产级 AI 流水线 |
| 选型窗口收窄 | WWDC 系统级 AI、MiMo 1000 tokens/s、Cohere 加入编程模型赛道 | 模型供给从"稀缺"变"拥挤",选型决策需要从"哪个模型最强"转向"哪个组合总成本最低" |
对国内软件开发企业的启示可以归为三条:第一,旗舰模型定价的快速下降意味着"先上再说"的策略优于"等模型更好再上"——今天的 API 成本大概率比三个月后高;第二,12B 级别的开源多模态模型 + 3B 活跃参数的编程模型正在形成一套"完全不依赖云端 API"的工具链,合规敏感场景可以开始评估;第三,托管智能体的定时部署和密钥管理能力标志着平台层正在吃掉调度层——自建智能体基础设施的团队需要重新评估"自研 vs 平台"的边界。
问:通用版和受限版有什么区别,企业该选哪个?
通用版面向所有开发者,内置安全分类器,特定请求可能被拒绝(但不计费);受限版不含分类器,能力更强但仅通过 Project Glasswing 向获批客户提供。大多数企业应先从通用版入手,仅在涉及高风险专业领域(如药物分子设计)时申请受限版权限。
问:Gemma 4 12B 的无编码器架构对实际使用有什么影响?
它让图像和音频可以"直接输入"大模型,不再经过独立编码器翻译,信息损耗更低。对实际使用意味着:医疗影像中的微小病灶、工业图纸中的精密公差标注,这些容易被编码器"压缩掉"的细节能更完整地传递给模型理解。
问:太空探索公司 IPO 对 AI 行业有什么连锁影响?
750 亿美元募资规模将重新校准公开市场对"前沿科技"公司的估值锚。如果上市后表现稳健,该头部模型企业和聊天产品开发商的 IPO 阻力将显著降低;如果破发,一级市场的 AI 估值泡沫论会获得数据支撑。
问:小米 MiMo 的 1000 tokens/s 实际意味着什么?
在实时对话场景中,1000 tokens/s 意味着模型生成 500 字中文回复约需 1-2 秒——接近人类对话的自然节奏。对客服、语音助手、实时翻译等产品而言,这是"等待感消失"的体验拐点。