我花了$200来测试每个主要的大型语言模型在一个复杂的推理任务上的表现。Grok 4并不像基准测试所暗示的那样出色。
- Grok 4在SQL生成任务中表现不佳,排名第五,中位数得分0.767
- Grok 4是测试中最慢的模型之一,价格昂贵,成功率77.53%
- 统计分析显示Grok 4在SQL生成任务中没有明显优势
- Grok 4可能在GPQA、AIME25等方面有优化,但在实际任务中表现平平
- Gemini 2.5 Flash性价比更高,o4-mini表现更出色
- 对那些“突破性”声明感到疲倦
在对主要语言模型进行实际评估时,一位用户花费了200美元来测试它们在生成复杂金融任务的SQL查询方面的能力。与普遍的基准相反,Grok 4原本被期望表现出色,但实际上只在性能上排名第五。值得注意的是,它被Gemini 2.5 Pro和o4 Mini等模型超越,这两者在速度和成本效益上都更胜一筹。这项研究挑战了围绕人工智能突破的炒作,强调了对真实世界测试的需求,而不是基准优化。这些发现对那些对将人工智能应用于复杂推理任务感兴趣的人尤为重要,因为它们突显了基准结果与实际性能之间的潜在差异。
评论