<p>GLM-5.2：这款中国神经网络真的能“干掉”Claude吗？</p> - 17.06.2026

17.06.2026

21:02

GLM-5.2：这款中国神经网络真的能“干掉”Claude吗？

加密货币社区和人工智能行业掀起新一轮热潮。Z.ai公司推出的GLM-5.2新模型被定位为Anthropic旗舰解决方案的直接竞争对手。爱好者们已将其称为"Claude杀手"，指出其在多个场景中表现惊艳，而价格仅为对手的十分之一。让我们来剖析这些高调宣称是否名副其实。

GLM-5.2是一款针对长时工作会话优化的旗舰模型。相比前代GLM-5.1，其核心优势在于稳定的百万级token上下文窗口（是此前20万token的五倍）。这使得模型能够"记住"完整代码库和复杂项目而不会降低质量。

新功能的关键特性包括：

百万token上下文，在超长会话中不会退化。
两级推理增强：High模式平衡性能与token消耗，Max模式提供最大算力。
MIT开源许可无地域限制，支持在自有设备上部署（自托管）。
API价格保持与前代GLM-5.1相同水平。

基准测试：真实数据vs营销话术

根据Z.ai内部测试，GLM-5.2被认定为市场上最强的开源模型。但在大多数测试中仍不及Anthropic旗舰产品Claude Opus 4.8。与GLM-5.1的差距显著：Terminal-Bench 2.1得分81.0对63.5，SWE-bench Pro得分62.1对58.4。在Terminal-Bench 2.1上，81.0的得分已逼近Opus 4.8（85.0），并超越Gemini 3.1 Pro（74.0）。

最大推理模式下的对比：

基准测试	GLM-5.2	GLM-5.1	Opus 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-bench Pro	62.1	58.4	69.2	58.6	54.2
Terminal-Bench 2.1	81.0	63.5	85.0	84.0	74.0
NL2Repo	48.9	42.7	69.7	50.7	33.4
DeepSWE	46.2	18.0	58.0	70.0	10.0
ProgramBench	63.7	50.9	71.9	70.8	39.5
MCP-Atlas	76.8	71.8	77.8	75.3	69.2
Tool-Decathlon	48.2	40.7	59.9	55.6	48.8

在长周期任务中情况类似。在FrontierSWE测试（模型需连续数十小时管理开源技术项目）中，GLM-5.2仅落后Opus 4.8约1%，超越GPT-5.5和Opus 4.7。在PostTrainBench上同样仅逊于Opus 4.8。但在涉及编译器创建等超长任务的SWE-Marathon中，与Opus 4.8的差距达13%。尽管如此，GLM-5.2仍是所有开源模型中表现最佳的。

价格与隐藏问题

GLM编程计划订阅分为三档：Lite（12.6美元/月）、Pro（50.4美元/月）和Max（112美元/月）。订阅内配额消耗取决于负载：高峰时段系数3倍，非高峰时段2倍。截至9月底的促销活动中，非高峰使用按1倍计费。

用户评价呈现两极分化。优势方面：模型被称为最强开源神经网络，基础逻辑明显优于5.1版本，编程能力在高推理模式下与GPT-5.5相当。但批评集中在云基础设施薄弱、支持不足和成本高昂。用户抱怨模型容易陷入无限循环并忽略指令，认为其专为基准测试优化。

结论：杀手与否？

答案并非绝对。GLM-5.2是当前编程和自主任务领域最佳开源模型。在特定长周期场景中已逼近Anthropic旗舰产品。MIT开源许可、支持本地部署和低门槛使其成为重要参与者。

然而，称其为"Claude杀手"的是博主而非基准测试。在多数测试中，Z.ai自身都将模型排在Opus 4.8之后。用户反馈云基础设施不稳定、Max模式token消耗过高、支持薄弱。这款新AI正在缩小与领先者的差距，但尚未实现超越。

专家观点： GLM-5.2是开源模型令人瞩目的进步，尤其在编程领域。但称其为"Claude杀手"为时过早。当Z.ai解决基础设施和稳定性问题后，模型的真正价值才会显现。目前，这是爱好者和开发者本地部署强大AI模型的优秀工具，但尚不能替代成熟的云解决方案。

加密新闻

GLM-5.2：这款中国神经网络真的能“干掉”Claude吗？

基准测试：真实数据vs营销话术

价格与隐藏问题

结论：杀手与否？