什么是表演?没有人同意,他撕裂了微软和Openai。

1000亿美元的利润门槛报道说,我们之前提到了较早的商业成功与认知能力的混乱,好像系统产生收入的能力表明了它是否可以“思考”,“理性”或“理解”世界作为人类的世界。
萨姆·奥特曼(Sam Altman)于2024年12月4日在纽约林肯中心(Lincoln Center)在纽约爵士乐举行的纽约时报交易书峰会上发表讲话。
图片来源:Eugene Gologusky通过Getty Images
根据您的定义,我们可能已经采取了行动,或者在身体上可能无法实现。如果您将行为定义为“在大多数任务中比大多数人的AI”,那么当前的语言模型可能会在某些类型的工作中与此标准相吻合(哪些任务,哪些人,什么是“更好”?),但就其是否远非普遍的问题达成协议。这并没有说明“超级智能”更加困扰的概念 – 假设智力的另一个模糊术语,而上帝超越了人类认知,而人类的认知却无视任何坚实的定义或参考。
鉴于这种定义混乱,研究人员试图创建客观的基准来衡量AC的进度,但是这些尝试揭示了他们自己的一系列问题。
为什么参考一直使我们失败
搜索最佳参考AC为图灵测试提供了有趣的替代方法。 FrançoisChollet在2019年推出的推理的抽象和推理语料库(ARC-AGI)测试了AI系统是否可以解决需要深层和新的分析推理的新的视觉难题。
Chollet说:“几乎所有AI今天的基准都可以通过记忆来解决。” Chollet在2024年8月进行自由思考。当前,AI参考的一个主要问题来自数据污染 – 当在培训数据中发现测试问题时,模型似乎在没有真正“理解”的基础概念的情况下表现出色。大型语言模型是主模仿者,模仿培训数据中发现的模型,但并非总是解决问题的新解决方案。
但是,即使像Arc-Agi这样的精致基准也面临着一个基本问题:他们总是试图将智力降低到得分。尽管改进的基准测量对于衡量科学框架中的经验进步至关重要,但智能并不是您可以衡量大小或重量的一件事 – 它是一个复杂的能力星座,在不同的情况下表现出不同的表现。确实,我们甚至没有对人类智能的完整功能定义,因此,单个参考评分对人工智能的定义很可能仅捕获完整图像的一小部分。