加密新闻

18.06.2026
07:04

GLM-5.2:中国新AI模型真的成了Claude的“杀手”吗?Cryptalist深度解析

开发者社区和加密货币爱好者因Z.ai公司发布GLM-5.2而震动。围绕这款模型爆发了激烈争论:有人称其为Anthropic旗舰模型Claude的"中国杀手",也有人对其真实能力持怀疑态度。作为独立分析师,我研究了所有可用数据,试图将营销噪音与真正创新区分开来。

什么是GLM-5.2,它有何特别之处?

GLM-5.2被定位为面向长时工作会话的旗舰模型。主要创新在于稳定的100万token上下文窗口,是前代GLM-5.1的五倍。这使得模型能够在不降低质量的情况下,持续关注海量代码或文本。

关键特性:

  • 100万token上下文,在超长会话中保持精度不衰减。
  • 两级推理增强:High模式平衡性能与token消耗,Max模式以更高资源消耗换取最大质量。
  • MIT开源许可无地域限制,支持在自有设备上部署(自托管)。
  • API价格保持与前代GLM-5.1相同水平,相比竞品具有价格优势。

该模型已在HuggingFace和ModelScope上线,同时可通过GLM Coding Plan订阅、ZCode桌面代理以及Claude Code和OpenCode环境使用。这使其能灵活集成到各类工作流程中。

基准测试:GLM-5.2的优势与短板

根据Z.ai自有测试,GLM-5.2被认定为市场上最强的开源模型。但在多数测试中仍不及标杆模型Claude Opus 4.8。让我们看具体数据。

在标准编程测试中,与GLM-5.1的差距显著:Terminal-Bench 2.1得分81.0对63.5,SWE-bench Pro得分62.1对58.4。Terminal-Bench 2.1的81.0分已逼近Opus 4.8的85.0分,并超越Gemini 3.1 Pro的74.0分。

在最大推理模式(Max)下与竞品对比显示,GLM-5.2确实强大但未占主导地位:

  • SWE-bench Pro:GLM-5.2(62.1)对Opus 4.8(69.2)——落后7个百分点。
  • Terminal-Bench 2.1:GLM-5.2(81.0)对Opus 4.8(85.0)——差距极小。
  • NL2Repo:GLM-5.2(48.9)对Opus 4.8(69.7)——明显落后。
  • DeepSWE:GLM-5.2(46.2)对Opus 4.8(58.0)——存在差距,但GLM-5.2在此项上显著领先GPT-5.5(70.0)?不,DeepSWE中GPT-5.5得分为70.0,更高。
  • ProgramBench:GLM-5.2(63.7)对Opus 4.8(71.9)——落后。
  • MCP-Atlas:GLM-5.2(76.8)对Opus 4.8(77.8)——几乎持平。
  • Tool-Decathlon:GLM-5.2(48.2)对Opus 4.8(59.9)——落后。

在长周期任务中情况类似。在FrontierSWE测试中(模型需连续数十小时主导开源技术项目),GLM-5.2仅落后Opus 4.8约1%,超越GPT-5.5和Opus 4.7。在PostTrainBench测试中,GLM-5.2领先Opus 4.7和GPT-5.5,仅落后于Opus 4.8。

但在涉及编译器开发等任务的超长SWE-Marathon测试中,与Opus 4.8的差距已达13%。因此,GLM-5.2在所有三项测试中均取得开源模型最佳成绩,但并非所有模型中的最优。

价格与隐忧:用户反馈

GLM Coding Plan订阅分为三档:Lite(12.6美元/月)、Pro(50.4美元/月)和Max(112美元/月),需按年付费。Pro版限额是Lite版的五倍,Max版则是二十倍。高级计划可优先使用旗舰模型并获得专属资源。

但社交媒体用户指出了严重缺陷。优势方面:模型被称为最强开源神经网络,基础逻辑显著改进,编程能力在高推理水平下与GPT-5.5相当。AI能自主完成复杂任务并主动提出修正方案。

批评集中在基础设施和稳定性上:云平台被指极其薄弱,计费昂贵,支持不足。用户抱怨模型容易陷入无限循环并忽略指令。他们认为模型专为基准测试优化,实际代码表现如同"廉价版"AI。

特别值得注意的是,模型仅在Max模式下才能展现全部能力,该模式消耗的token数量是High模式的数倍。这使得日常使用成本高昂。

结论:是Claude的"杀手"吗?

没有明确答案。GLM-5.2无疑是当前编程和自主任务领域最佳的开源模型。在特定长场景中,它已逼近Anthropic旗舰产品。MIT开源许可、支持自托管和低门槛使其成为重要参与者。

然而,称其为Claude"杀手"的是博主而非基准测试。在多数测试中,Z.ai自身都将模型排在Opus 4.8之后。此外,用户还抱怨不稳定的云基础设施、Max模式的高token消耗和薄弱的技术支持。

我的结论:GLM-5.2是开源AI模型的重大进步。它缩小了与领先者的差距,但尚未超越。对于重视开放性和灵活性的开发者而言,这是出色的工具。但称其为Claude或GPT的完全替代品为时过早。AI市场竞争日益激烈,这对我们所有人都是好事。