GLM-5.2:这款中国神经网络真的能“干掉”Claude吗?
加密货币社区和人工智能行业掀起新一轮热潮。Z.ai公司推出的GLM-5.2新模型被定位为Anthropic旗舰解决方案的直接竞争对手。爱好者们已将其称为"Claude杀手",指出其在多个场景中表现惊艳,而价格仅为对手的十分之一。让我们来剖析这些高调宣称是否名副其实。
GLM-5.2是一款针对长时工作会话优化的旗舰模型。相比前代GLM-5.1,其核心优势在于稳定的百万级token上下文窗口(是此前20万token的五倍)。这使得模型能够"记住"完整代码库和复杂项目而不会降低质量。
新功能的关键特性包括:
- 百万token上下文,在超长会话中不会退化。
- 两级推理增强:High模式平衡性能与token消耗,Max模式提供最大算力。
- MIT开源许可无地域限制,支持在自有设备上部署(自托管)。
- API价格保持与前代GLM-5.1相同水平。
基准测试:真实数据vs营销话术
根据Z.ai内部测试,GLM-5.2被认定为市场上最强的开源模型。但在大多数测试中仍不及Anthropic旗舰产品Claude Opus 4.8。与GLM-5.1的差距显著:Terminal-Bench 2.1得分81.0对63.5,SWE-bench Pro得分62.1对58.4。在Terminal-Bench 2.1上,81.0的得分已逼近Opus 4.8(85.0),并超越Gemini 3.1 Pro(74.0)。
最大推理模式下的对比:
| 基准测试 | GLM-5.2 | GLM-5.1 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
| SWE-bench Pro | 62.1 | 58.4 | 69.2 | 58.6 | 54.2 |
| Terminal-Bench 2.1 | 81.0 | 63.5 | 85.0 | 84.0 | 74.0 |
| NL2Repo | 48.9 | 42.7 | 69.7 | 50.7 | 33.4 |
| DeepSWE | 46.2 | 18.0 | 58.0 | 70.0 | 10.0 |
| ProgramBench | 63.7 | 50.9 | 71.9 | 70.8 | 39.5 |
| MCP-Atlas | 76.8 | 71.8 | 77.8 | 75.3 | 69.2 |
| Tool-Decathlon | 48.2 | 40.7 | 59.9 | 55.6 | 48.8 |
在长周期任务中情况类似。在FrontierSWE测试(模型需连续数十小时管理开源技术项目)中,GLM-5.2仅落后Opus 4.8约1%,超越GPT-5.5和Opus 4.7。在PostTrainBench上同样仅逊于Opus 4.8。但在涉及编译器创建等超长任务的SWE-Marathon中,与Opus 4.8的差距达13%。尽管如此,GLM-5.2仍是所有开源模型中表现最佳的。
价格与隐藏问题
GLM编程计划订阅分为三档:Lite(12.6美元/月)、Pro(50.4美元/月)和Max(112美元/月)。订阅内配额消耗取决于负载:高峰时段系数3倍,非高峰时段2倍。截至9月底的促销活动中,非高峰使用按1倍计费。
用户评价呈现两极分化。优势方面:模型被称为最强开源神经网络,基础逻辑明显优于5.1版本,编程能力在高推理模式下与GPT-5.5相当。但批评集中在云基础设施薄弱、支持不足和成本高昂。用户抱怨模型容易陷入无限循环并忽略指令,认为其专为基准测试优化。
结论:杀手与否?
答案并非绝对。GLM-5.2是当前编程和自主任务领域最佳开源模型。在特定长周期场景中已逼近Anthropic旗舰产品。MIT开源许可、支持本地部署和低门槛使其成为重要参与者。
然而,称其为"Claude杀手"的是博主而非基准测试。在多数测试中,Z.ai自身都将模型排在Opus 4.8之后。用户反馈云基础设施不稳定、Max模式token消耗过高、支持薄弱。这款新AI正在缩小与领先者的差距,但尚未实现超越。
专家观点: GLM-5.2是开源模型令人瞩目的进步,尤其在编程领域。但称其为"Claude杀手"为时过早。当Z.ai解决基础设施和稳定性问题后,模型的真正价值才会显现。目前,这是爱好者和开发者本地部署强大AI模型的优秀工具,但尚不能替代成熟的云解决方案。