加密新闻

18.06.2026
06:34

GLM-5.2 против Claude:中国神经网络真的成为市场领导者的“杀手”了吗?

人工智能领域又起新争端:中国公司Z.ai推出GLM-5.2模型,部分爱好者已将其称为Anthropic旗舰产品Claude Opus 4.8的"杀手"。这些高调宣称究竟有几分可信?让我们一探究竟。

GLM-5.2是什么?强在何处?

GLM-5.2是为长时工作会话打造的旗舰模型。相比前代GLM-5.1,其核心优势在于将稳定上下文窗口从20万token提升至100万token。这意味着该模型能完整追踪整个代码库或大型项目而不损失质量。

关键特性:

  • 百万token上下文,超长会话无性能衰减。
  • 双级推理增强:High模式平衡性能与token消耗,Max模式释放极致能力。
  • MIT开源许可无地域限制——支持自托管部署。
  • API价格与GLM-5.1持平。

该模型已上线HuggingFace和ModelScope平台,同时可通过GLM Coding Plan订阅、ZCode桌面代理及Claude Code、OpenCode环境使用。

基准测试表现如何?

根据Z.ai自测,GLM-5.2被认定为市场最强开源模型。但在多数测试中仍不及Claude Opus 4.8。

在标准编程测试中,与GLM-5.1的差距显著:Terminal-Bench 2.1得分81.0对63.5,SWE-bench Pro得分62.1对58.4。其中Terminal-Bench 2.1的81.0分已逼近Opus 4.8的85.0分,并超越Gemini 3.1 Pro的74.0分。

最大推理模式下的竞品对比:

基准测试GLM-5.2GLM-5.1Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-bench Pro62.158.469.258.654.2
Terminal-Bench 2.181.063.585.084.074.0
NL2Repo48.942.769.750.733.4
DeepSWE46.218.058.070.010.0
ProgramBench63.750.971.970.839.5
MCP-Atlas76.871.877.875.369.2
Tool-Decathlon48.240.759.955.648.8

在长周期任务中情况类似。在要求模型持续数十小时管理开源技术项目的FrontierSWE测试中,GLM-5.2仅落后Opus 4.8一个百分点。同时超越了GPT-5.5和上一代Opus 4.7。

AI定价几何?有何隐情?

GLM Coding Plan订阅分为三档,年付享七折:Lite版12.6美元/月,Pro版50.4美元/月,Max版112美元/月。订阅内配额消耗按负载浮动:高峰时段系数3x,非高峰时段2x。截至九月底的促销活动中,非高峰使用按1x计费。

用户评价两极分化。优势方面:

  • 当前最强开源模型。
  • 基础逻辑能力显著优于5.1版本。
  • 可通过辅助代理自主完成复杂任务。
  • 虽速度较慢但目标达成极为执着。

批评意见:

  • 云基础设施薄弱且计费昂贵。
  • 易陷入无限循环并忽略指令。
  • 多数人认为模型专为基准测试优化。

总结:基准测试中的旗舰,实际代码中的平价AI。

那么它到底是不是Claude的"杀手"?

答案并非绝对。GLM-5.2被公认为编程与自主任务领域的最佳开源模型。在特定长场景中已逼近Anthropic旗舰产品。MIT开源许可、自托管部署能力及低准入门槛使其成为重要参与者。

但将新模型称为Claude"杀手"的是博主而非基准测试。在多数测试中,Z.ai自身都将自家模型置于Opus 4.8之下。此外,用户抱怨云基础设施不稳定、Max模式token消耗过高及支持薄弱。这款新AI正在缩小与领先者的差距,但尚未实现超越。

我的专家结论:GLM-5.2是开源模型领域令人瞩目的进步,尤其在编程细分赛道。但称其为Claude"杀手"为时过早。它更像是追赶者而非超越者,其真实价值将由实际项目的稳定性与易用性决定,而非基准测试分数。