GLM-5.2 против Claude:中国神经网络真的成为市场领导者的“杀手”了吗?
人工智能领域又起新争端:中国公司Z.ai推出GLM-5.2模型,部分爱好者已将其称为Anthropic旗舰产品Claude Opus 4.8的"杀手"。这些高调宣称究竟有几分可信?让我们一探究竟。
GLM-5.2是什么?强在何处?
GLM-5.2是为长时工作会话打造的旗舰模型。相比前代GLM-5.1,其核心优势在于将稳定上下文窗口从20万token提升至100万token。这意味着该模型能完整追踪整个代码库或大型项目而不损失质量。
关键特性:
- 百万token上下文,超长会话无性能衰减。
- 双级推理增强:High模式平衡性能与token消耗,Max模式释放极致能力。
- MIT开源许可无地域限制——支持自托管部署。
- API价格与GLM-5.1持平。
该模型已上线HuggingFace和ModelScope平台,同时可通过GLM Coding Plan订阅、ZCode桌面代理及Claude Code、OpenCode环境使用。
基准测试表现如何?
根据Z.ai自测,GLM-5.2被认定为市场最强开源模型。但在多数测试中仍不及Claude Opus 4.8。
在标准编程测试中,与GLM-5.1的差距显著:Terminal-Bench 2.1得分81.0对63.5,SWE-bench Pro得分62.1对58.4。其中Terminal-Bench 2.1的81.0分已逼近Opus 4.8的85.0分,并超越Gemini 3.1 Pro的74.0分。
最大推理模式下的竞品对比:
| 基准测试 | GLM-5.2 | GLM-5.1 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
| SWE-bench Pro | 62.1 | 58.4 | 69.2 | 58.6 | 54.2 |
| Terminal-Bench 2.1 | 81.0 | 63.5 | 85.0 | 84.0 | 74.0 |
| NL2Repo | 48.9 | 42.7 | 69.7 | 50.7 | 33.4 |
| DeepSWE | 46.2 | 18.0 | 58.0 | 70.0 | 10.0 |
| ProgramBench | 63.7 | 50.9 | 71.9 | 70.8 | 39.5 |
| MCP-Atlas | 76.8 | 71.8 | 77.8 | 75.3 | 69.2 |
| Tool-Decathlon | 48.2 | 40.7 | 59.9 | 55.6 | 48.8 |
在长周期任务中情况类似。在要求模型持续数十小时管理开源技术项目的FrontierSWE测试中,GLM-5.2仅落后Opus 4.8一个百分点。同时超越了GPT-5.5和上一代Opus 4.7。
AI定价几何?有何隐情?
GLM Coding Plan订阅分为三档,年付享七折:Lite版12.6美元/月,Pro版50.4美元/月,Max版112美元/月。订阅内配额消耗按负载浮动:高峰时段系数3x,非高峰时段2x。截至九月底的促销活动中,非高峰使用按1x计费。
用户评价两极分化。优势方面:
- 当前最强开源模型。
- 基础逻辑能力显著优于5.1版本。
- 可通过辅助代理自主完成复杂任务。
- 虽速度较慢但目标达成极为执着。
批评意见:
- 云基础设施薄弱且计费昂贵。
- 易陷入无限循环并忽略指令。
- 多数人认为模型专为基准测试优化。
总结:基准测试中的旗舰,实际代码中的平价AI。
那么它到底是不是Claude的"杀手"?
答案并非绝对。GLM-5.2被公认为编程与自主任务领域的最佳开源模型。在特定长场景中已逼近Anthropic旗舰产品。MIT开源许可、自托管部署能力及低准入门槛使其成为重要参与者。
但将新模型称为Claude"杀手"的是博主而非基准测试。在多数测试中,Z.ai自身都将自家模型置于Opus 4.8之下。此外,用户抱怨云基础设施不稳定、Max模式token消耗过高及支持薄弱。这款新AI正在缩小与领先者的差距,但尚未实现超越。
我的专家结论:GLM-5.2是开源模型领域令人瞩目的进步,尤其在编程细分赛道。但称其为Claude"杀手"为时过早。它更像是追赶者而非超越者,其真实价值将由实际项目的稳定性与易用性决定,而非基准测试分数。