加密新闻

18.06.2026
00:07

GLM-5.2:对Claude的真正威胁,还是又一场中国式炒作?

中国AI领域再次以高调姿态宣告自身存在。Z.ai公司推出的新模型GLM-5.2,被众多爱好者认为足以挑战Anthropic的旗舰产品。但这些说法究竟有多少依据?让我们通过客观数据和真实用户体验来一探究竟。

开发者将GLM-5.2定位为针对长时工作会话优化的旗舰模型。相较于5.1版本,其核心改进在于实现了稳定的百万级token上下文窗口,是前代产品的五倍。这使得模型能够完整覆盖整个代码库,在超长任务中保持输出质量。

该模型提供两种推理层级:High模式平衡性能与token消耗,Max模式则追求极致效果但资源消耗更高。值得注意的是,GLM-5.2采用MIT开源许可协议发布,用户可在自有设备上运行且不受地域限制。

数据与基准测试:突破还是营销?

Z.ai的内部测试数据确实令人瞩目。在关键基准测试中,GLM-5.2相较前代实现显著跃升。例如在Terminal-Bench 2.1测试中,得分从63.5提升至81.0,几乎逼近Claude Opus 4.8的85.0分,并超越Gemini 3.1 Pro的74.0分。

在SWE-bench Pro测试中,该模型获得62.1分(GLM-5.1为58.4分),而Opus 4.8为69.2分。在FrontierSWE等长期任务场景中,与Anthropic领先产品的差距仅为1%,这对开源模型而言堪称卓越。但在NL2Repo和DeepSWE测试中,与Opus 4.8的差距分别达到20%和12%。

实践vs理论:用户怎么说

尽管基准测试数据亮眼,真实用户体验却呈现出更复杂的图景。许多开发者指出,GLM-5.2确实是当前最强的开源模型。其基础逻辑能力显著提升,在编程领域的高推理层级下可与GPT-5.5媲美。

但批评主要集中在基础设施和稳定性方面。用户抱怨云服务支持薄弱、套餐价格高昂,且模型容易陷入无限循环而忽略指令。许多人指出,只有在Max模式下才能发挥模型潜力,但该模式的token消耗量是High模式的数倍。最终,部分社区成员认为,付费使用Claude或GPT反而更简单划算。

Cryptalist专家观点: GLM-5.2无疑是开源AI领域的重要进步,尤其在编程和自主代理领域缩小了与专有巨头的差距。但称其为"Claude杀手"为时尚早。基础设施问题、稳定性缺陷以及高token消耗,这些"成长烦恼"需要Z.ai解决,才能使模型成为真正的替代方案,而非行业雷达上的一抹亮色。目前来看,这更像是"中国挑战",而非"杀手级应用"。