GLM-5.2 от Z.ai:这款中国模型真的成为Claude的“杀手”了吗?专家解析
人工智能领域即将迎来一场轰动。Z.ai公司推出的全新开源模型GLM-5.2,被众多爱好者视为对Anthropic旗舰产品Claude系列的重大挑战。一些人甚至迫不及待地将其称为"Claude的中国杀手",这一说法并非空穴来风。
让我们来仔细分析GLM-5.2究竟有何过人之处,以及这些高调宣称是否名副其实。这绝非一次简单的更新。其核心创新在于扩展至100万token的上下文窗口,是前代GLM-5.1的五倍。这使得模型能够完整追踪整个代码库,并在长时间、复杂的会话中保持高质量输出。此外,该模型还提供两种"推理增强"模式:High模式在性能与token消耗之间取得平衡,而Max模式则追求极致精度,但资源消耗更高。
关键优势在于其采用MIT开源许可证,消除了地域限制,并允许用户在自有设备上部署(自托管)。这使得GLM-5.2对注重数据隐私的开发者与企业极具吸引力。
基准测试:数据不说谎,但细节需留意
根据Z.ai内部测试数据,GLM-5.2确实展现出令人瞩目的成绩,尤其在编程任务中。在Terminal-Bench 2.1测试中,它获得81.0分,几乎与Claude Opus 4.8的85.0分持平,并大幅领先Gemini 3.1 Pro的74.0分。在SWE-bench Pro测试中,其62.1分的成绩优于GLM-5.1的58.4分,但与Opus 4.8的69.2分仍有差距。
然而,若观察其他基准测试,情况则更为复杂。在评估根据文本描述生成完整项目的NL2Repo测试中,GLM-5.2(48.9分)明显落后于Opus 4.8(69.7分)。在DeepSWE测试中,差距更为显著:46.2分对58.0分。也就是说,在若干复杂、综合的场景中,这款中国模型尚未达到领先水平。
尽管如此,在需要模型连续数十小时管理项目的长期任务(如FrontierSWE)中,GLM-5.2与Opus 4.8的差距仅为1%,同时超越了GPT-5.5及上一代Opus 4.7。这表明,这款新品在长时间会话中擅长维持上下文与连贯性。
价格与用户真实体验
GLM Coding Plan的订阅费用从Lite套餐的每月12.6美元起(年付),确实远低于Claude或GPT的订阅价格。Max套餐则为每月112美元。然而,正如用户所指出的,"魔鬼藏在细节中"。在Max模式下,模型才能充分发挥潜力,但token消耗显著增加,频繁使用可能迅速耗尽限额。
用户评价褒贬不一。一方面,基础逻辑能力明显提升,能自主解决复杂问题并提供修复建议,受到称赞。另一方面,云基础设施不稳定、Max模式成本高昂,以及模型容易陷入无休止的推理循环、忽略用户指令等问题,遭到批评。许多人指出,GLM-5.2似乎"为基准测试而生",在实际代码工作中表现得更像一款"经济型"模型。
我的结论:将GLM-5.2称为Claude的"杀手"为时尚早。它无疑是当前最强的开源模型,缩小了与市场领先者的差距,并凭借开源许可证和超大上下文窗口提供了独特优势。对于重视隐私、愿意容忍基础设施"初期问题"的开发者而言,这是一款经济实惠的优秀工具。然而,若追求无妥协的质量与稳定性,Anthropic和OpenAI的旗舰产品仍难以匹敌。AI市场竞争日益激烈,这无疑对所有人都是好事。