人工智能市场:美元,而非代币——才是衡量实力的真正标准
Dragonfly管理合伙人哈西布·库雷希对当前AI模型市场分析方法提出了尖锐批评。他的核心论点在于:代币消耗占比是一个极不可靠且具有误导性的指标。比较模型必须严格依据实际花费的美元金额,而非生成的代币数量。我认为这一论点对于理解行业真实动态至关重要。
代币指标的四大陷阱
第一个问题——补贴。中国实验室经常推出带有激进折扣甚至免费访问权限的新模型。这吸引了用户在免费模型之间迁移,推高了代币消耗量,却并未产生实际支出。这种情况下绘制的"市场份额"图表会呈现虚假景象。
第二个问题——模型规模差异。像Qwen 3.5-27B这样的小型模型,每个代币的成本仅为旗舰级Claude Opus的约百分之一。Qwen使用量的增长可能看似市场份额的急剧攀升,但从经济角度看不过是沧海一粟。分析必须限定在相同量级范围内进行。
第三个问题——多智能体系统。同样一笔资金,既可以用于基于DeepSeek或GLM 5.2的复杂系统,也可以用于Opus或GPT-5.5 Pro这样的前沿模型。但多智能体配置会在相同预算下消耗更多代币。正如库雷希精准指出的:如果Opus 5%的使用量转移到这种代币消耗量四倍的系统,图表会显示Opus份额损失约18%,而实际支出仅偏移5%。这类图表夸大了廉价代币的重要性。
第四个问题——OpenRouter样本偏差。大型企业在选定某家前沿实验室后,更倾向于直接与Anthropic或OpenAI合作,避免OpenRouter的加价。这在图表上表现为美国份额下降,实际上代币只是流向了平台之外。结论:OpenRouter适用于评估开放模型内部份额,但无法用于开放与封闭模型的比较。
未来属于廉价模型?
SageRoad Research创始人特雷弗·诺伦提出了类似观点,并将其与行业价格压力相关联。他引用摩根大通的评估:未来许多代币将由非前沿的小型开放模型消耗,这些模型足以应对特定任务。亚马逊已提供约50种开放模型,价格仅为前沿模型的零头,而英伟达正与戴尔、联想、惠普共同打造AI智能体专用计算机。
成本案例尤为直观。在Artificial Analysis Intelligence Index基准测试中,使用Claude Opus 4.8运行任务集需花费3700美元获得56分,而DeepSeek V4 Pro仅用186美元就取得44分——成本相差约20倍。结论:前沿智能并非所有场景都需要,而在必要场景中,Z.ai的GLM 5.2已展现出与Anthropic和OpenAI顶级模型相当的实力。
诺伦认为,模型商品化不仅来自前沿实验室的竞争,更源于企业通过更廉价的专用模型控制成本的诉求。两种观点殊途同归:衡量人工智能市场必须基于货币而非代币,在价格压力下,优势正日益向廉价模型倾斜。
我的结论:AI市场正进入成熟阶段,"裸体量"指标正让位于经济效率。未能转向美元评估体系的投资者和分析师,可能会错失向务实模型选择转变的格局性变革。中国实验室已在小型模型领域占据了"效率前沿",这正在改变游戏规则。