加密新闻

17.06.2026
21:02

GLM-5.2:这款中国神经网络真的能“干掉”Claude吗?

加密货币社区和人工智能行业掀起新一轮热潮。Z.ai公司推出的GLM-5.2新模型被定位为Anthropic旗舰解决方案的直接竞争对手。爱好者们已将其称为"Claude杀手",指出其在多个场景中表现惊艳,而价格仅为对手的十分之一。让我们来剖析这些高调宣称是否名副其实。

GLM-5.2是一款针对长时工作会话优化的旗舰模型。相比前代GLM-5.1,其核心优势在于稳定的百万级token上下文窗口(是此前20万token的五倍)。这使得模型能够"记住"完整代码库和复杂项目而不会降低质量。

新功能的关键特性包括:

  • 百万token上下文,在超长会话中不会退化。
  • 两级推理增强:High模式平衡性能与token消耗,Max模式提供最大算力。
  • MIT开源许可无地域限制,支持在自有设备上部署(自托管)。
  • API价格保持与前代GLM-5.1相同水平。

基准测试:真实数据vs营销话术

根据Z.ai内部测试,GLM-5.2被认定为市场上最强的开源模型。但在大多数测试中仍不及Anthropic旗舰产品Claude Opus 4.8。与GLM-5.1的差距显著:Terminal-Bench 2.1得分81.0对63.5,SWE-bench Pro得分62.1对58.4。在Terminal-Bench 2.1上,81.0的得分已逼近Opus 4.8(85.0),并超越Gemini 3.1 Pro(74.0)。

最大推理模式下的对比:

基准测试GLM-5.2GLM-5.1Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-bench Pro62.158.469.258.654.2
Terminal-Bench 2.181.063.585.084.074.0
NL2Repo48.942.769.750.733.4
DeepSWE46.218.058.070.010.0
ProgramBench63.750.971.970.839.5
MCP-Atlas76.871.877.875.369.2
Tool-Decathlon48.240.759.955.648.8

在长周期任务中情况类似。在FrontierSWE测试(模型需连续数十小时管理开源技术项目)中,GLM-5.2仅落后Opus 4.8约1%,超越GPT-5.5和Opus 4.7。在PostTrainBench上同样仅逊于Opus 4.8。但在涉及编译器创建等超长任务的SWE-Marathon中,与Opus 4.8的差距达13%。尽管如此,GLM-5.2仍是所有开源模型中表现最佳的。

价格与隐藏问题

GLM编程计划订阅分为三档:Lite(12.6美元/月)、Pro(50.4美元/月)和Max(112美元/月)。订阅内配额消耗取决于负载:高峰时段系数3倍,非高峰时段2倍。截至9月底的促销活动中,非高峰使用按1倍计费。

用户评价呈现两极分化。优势方面:模型被称为最强开源神经网络,基础逻辑明显优于5.1版本,编程能力在高推理模式下与GPT-5.5相当。但批评集中在云基础设施薄弱、支持不足和成本高昂。用户抱怨模型容易陷入无限循环并忽略指令,认为其专为基准测试优化。

结论:杀手与否?

答案并非绝对。GLM-5.2是当前编程和自主任务领域最佳开源模型。在特定长周期场景中已逼近Anthropic旗舰产品。MIT开源许可、支持本地部署和低门槛使其成为重要参与者。

然而,称其为"Claude杀手"的是博主而非基准测试。在多数测试中,Z.ai自身都将模型排在Opus 4.8之后。用户反馈云基础设施不稳定、Max模式token消耗过高、支持薄弱。这款新AI正在缩小与领先者的差距,但尚未实现超越。

专家观点: GLM-5.2是开源模型令人瞩目的进步,尤其在编程领域。但称其为"Claude杀手"为时过早。当Z.ai解决基础设施和稳定性问题后,模型的真正价值才会显现。目前,这是爱好者和开发者本地部署强大AI模型的优秀工具,但尚不能替代成熟的云解决方案。