GLM-5.2:是Claude的真正对手,还是仅仅是一场声势浩大的营销?
中国公司Z.ai发布了其新一代旗舰模型GLM-5.2,业界已将其称为Anthropic旗下Claude模型的"杀手"。我仔细研究了其技术参数、基准测试结果和用户反馈,以评估这一称号是否名副其实。
GLM-5.2是什么?它有何亮点?
GLM-5.2是一款采用MIT开源许可的开放模型,这本身就是一大优势。其核心特性是支持100万token的上下文窗口,且在超长对话中性能不会衰减。这使得模型能够聚焦处理海量代码或文本,对复杂项目至关重要。
该模型提供两种推理增强模式:High模式在性能与token消耗间取得平衡,Max模式则释放全部潜能。API价格与上一代GLM-5.1保持一致,在性能提升的背景下显得极具吸引力。
数据与宣传的对比
让我们看看关键基准测试结果。在Terminal-Bench 2.1测试中,GLM-5.2获得81.0分,逼近Opus 4.8的85.0分,并超越Gemini 3.1 Pro(74.0分)。在SWE-bench Pro测试中,得分62.1分,而Opus 4.8为69.2分。在FrontierSWE(长周期技术项目)测试中,与领先者的差距仅为1%。
然而在DeepSWE测试中,GLM-5.2仅得46.2分,远低于Opus 4.8的58.0分和GPT-5.5的70.0分。在NL2Repo(根据描述生成项目)测试中,得分48.9分,而Claude为69.7分。这表明在某些场景下,该模型与顶级解决方案仍有明显差距。
实际使用体验:评价与批评
用户普遍对模型的基础逻辑能力和自主工作能力给予好评。它能主动提出修复建议,并通过辅助代理执行复杂任务。但也存在严重缺陷。
主要问题在于云端基础设施。许多用户抱怨高峰时段支持薄弱且计费昂贵。完全释放模型潜力的Max模式消耗数倍token,导致使用成本高昂。部分开发者指出,模型容易陷入无限循环并忽略指令。
分析师结论
GLM-5.2无疑是重大进步。它是目前编程领域最强的开源模型,在某些场景下确实紧追Opus 4.8。MIT开源许可和本地部署能力是其强大优势。
但称其为Claude的"杀手"为时过早。在大多数测试中,Z.ai自身都将该模型排在Opus 4.8之后。基础设施问题和Max模式的高昂使用成本,使其在日常工作中不如Anthropic或OpenAI的成熟方案具有吸引力。GLM-5.2是缩小差距的强大竞争者,但尚未实现超越。