rohanpaul_ai(@JohnNosta):@rohanpaul_ai李飞飞表示语言模型非常有限。 这篇@GoogleDeepMind的论文几乎提出了相同的观点,只是在视频领域。 这些模型只是非常先进的模式匹配器。它们可以重新创建看起来像现实的东西,因为它们已经看到了大量数据,但它们不知道世界为什么会以这种方式运作。 这些模型可以生成看起来惊人真实的片段,但当你测试它们是否真的遵循基本物理规律时,它们就会崩溃。 物理智商基准显示,视觉效果和真正理解是两个完全不同的事情。 在这里,作者们构建了Physics-IQ,一个涵盖固体力学、流体、光学、热力学和磁性的真实视频基准。 每个测试都展示了一个事件的开始,然后要求模型继续下一秒。 他们通过运动检查来比较预测结果与真实未来的差异,包括物体的位置、时间和移动量。 得分然后汇总成一个Physics-IQ数字,最高为两个真实视频一致的水平。 在流行的模型中,即使最强大的模型也远低于这个水平,而多帧版本通常会击败图像到视频版本。 Sora最难与真实视频区分开,但它的物理得分却很低,显示出现实和物理之间没有相关性。 有些情况下是有效的,比如涂抹油漆或倒液体,但接触和切割经常失败。 arxiv. org/abs/2501.09038

-李飞飞和GoogleDeepMind的一篇论文讨论了语言和视频模型作为高级模式匹配器的局限性。 -视频模型可以创建逼真的剪辑,但缺乏对基本物理的真正理解。 -Physics-IQ基准测试固体力学、流体、光学、热力学和磁学模型。 -基于预测事件的未来秒数和对实际结果的运动检查来评估模型。 -即使是顶级机型也达不到基准,多帧版本的性能优于图像到视频版本。 -现实主义和物理理解与模型性能无关。 -有些任务(如涂漆)是成功的,而另一些任务(如接触和切割)往往失败。 最后总结:李飞和GoogleDeepMind的一篇论文讨论了语言和视频模型作为高级模式匹配器的局限性。视频模型缺乏对基本物理的真正理解,如physics-IQ基准测试模型对各种物理概念所示。模型的评估基于对事件未来秒数的预测,多帧版本的表现优于图像到视频版本。现实主义和物理理解与模型性能无关,在油漆涂抹等任务中取得成功,但在接触和切割等任务中失败。 在最近的一条推文中,John Nosta引起了人们对人工智能语言模型局限性的持续关注。通过转发Rohan Paul的帖子,Nosta放大了AI专家Fei-Fei Li和GoogleDeepMind研究论文共享的批判观点,两者都承认了这些模型的当前限制。这个内容对于那些对AI能力的演变论述和其未来潜力感兴趣的人来说尤其值得注意,因为它强调了专家们对语言处理领域未来挑战的日益共识。

评论