加密新闻

18.06.2026
05:48

GLM-5.2 来自 Z.ai:中国新模型真的“碾压”Claude 了吗?分析师深度解读

近日,加密货币社区和AI爱好者们正热烈讨论中国公司Z.ai推出的新模型GLM-5.2。该模型已被冠以Anthropic旗下Claude的"杀手"之名,但和往常一样,炒作成分远大于实际依据。让我们来剖析一下这款模型究竟有何过人之处,以及它对市场领导者的真正威胁有多大。

GLM-5.2是什么?它的核心优势在哪里?

GLM-5.2是Z.ai的旗舰级开源模型,据开发者称,它专为处理长时间、复杂的工作会话而优化。与上一代GLM-5.1相比,其关键突破在于稳定的100万token上下文窗口(此前为20万token)。这意味着该模型能在不降低质量的前提下,同时处理海量代码或文本内容。

以下特性引发了广泛关注:

  • 100万token上下文,在超长会话中不会出现性能衰减。
  • 两级推理增强:High模式(兼顾性能与token消耗)和Max模式(极致性能,但资源消耗高)。
  • MIT开源许可证,无地域限制,支持用户自托管部署。
  • API定价与前代保持一致,这是重要考量因素。

该模型已在HuggingFace和ModelScope上线,同时可通过GLM Coding Plan订阅、桌面端代理ZCode,甚至Claude Code和OpenCode环境使用。

基准测试:GLM-5.2的强项与短板

根据Z.ai内部测试,GLM-5.2被认定为当前最强的开源模型。但在多数场景下,它仍不及Anthropic的旗舰产品——Claude Opus 4.8

在标准编程测试中,与GLM-5.1的差距显著:Terminal-Bench 2.1得分81.0 vs 63.5,SWE-bench Pro得分62.1 vs 58.4。其中Terminal-Bench 2.1的81.0分已逼近Opus 4.8的85.0分,并超越Gemini 3.1 Pro的74.0分。

Max模式下的关键测试对比表:

基准测试GLM-5.2GLM-5.1Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-bench Pro62.158.469.258.654.2
Terminal-Bench 2.181.063.585.084.074.0
NL2Repo48.942.769.750.733.4
DeepSWE46.218.058.070.010.0
ProgramBench63.750.971.970.839.5
MCP-Atlas76.871.877.875.369.2
Tool-Decathlon48.240.759.955.648.8

在长周期任务(long-horizon)中,情况类似。FrontierSWE测试中,GLM-5.2仅落后Opus 4.8约1%,但优于GPT-5.5和前代Opus 4.7。PostTrainBench测试中,该模型超越Opus 4.7和GPT-5.5,仅逊于Opus 4.8。但在超长任务SWE-Marathon中,与Opus 4.8的差距扩大至13%。

定价与真实用户反馈

GLM Coding Plan订阅分为三档:Lite(12.6美元/月)、Pro(50.4美元/月)和Max(112美元/月)。配额消耗取决于负载:高峰时段系数为3x,非高峰时段为2x。截至9月底,非高峰时段使用按1x计费。

用户评价褒贬不一。优势方面:模型因基础逻辑优于5.1、推理能力与GPT-5.5相当、能自主完成复杂任务而受好评。但批评集中在云基础设施薄弱、Max模式token消耗过高、易陷入无限循环等问题。许多用户指出,模型仅在Max模式下才能发挥全部实力,但该模式资源消耗远超High模式。

结论:是杀手还是噱头?

答案并非绝对。GLM-5.2是当前编程和自主任务领域最强的开源模型。在特定场景下,它已逼近Anthropic旗舰产品的水平。MIT开源许可证、支持自托管部署以及低门槛定价,使其成为不可忽视的竞争者。

我的专业判断:将GLM-5.2称为Claude的"杀手"更多是营销策略而非现实。Z.ai自身的测试数据显示,该模型在多数指标上仍落后于Opus 4.8。此外,用户反馈的不稳定基础设施和高token消耗问题也不容忽视。该模型正在缩小与领先者的差距,但尚未实现超越。对于需要强大开源模型的开发者和爱好者而言,这是绝佳选择。但追求稳定性和可预测性的用户,Claude或GPT仍是更可靠的选择。