随着O3-Pro的发布,让我们谈谈AI的真正作用

为什么要使用O3-Pro?

与一般使用的模型(例如优先速度的GPT-4O)不同,一般知识和用户在皮肤上感觉良好,O3-Pro使用在思想链中模拟推理的过程来专用更多的出口代币来解决复杂的问题,这通常使技术挑战更好,需要更深入的分析。但这仍然并不完美。

O3-Pro参考表。


图片来源:OpenAI

测量所谓的“推理”能力是微妙的,因为通过污染或培训数据污染基准可以易于发挥作用,但OpenAI报告说,O3-Pro至少在测试人员中很受欢迎。 OpenAI在他的出版说明中写道:“在专家评估中,审查员通常更喜欢O3-Pro而不是经过测试的每个类别中的O3,尤其是在科学,教育,编程,商业和写作援助等关键领域。” “审查员还不断评估O3-Pro,以更加清晰,理解,监视指令和精度。”

O3-Pro参考表。

O3-Pro参考表。


图片来源:OpenAI

OpenAI共享了参考结果,显示了O3-Pro报告的性能的改善。在AIM 2024的数学竞赛中,O3-Pro以 @ 1的速度达到93%的精度,而O3(中场)为90%,而O1-Pro的精度为86%。该模型在GPQA钻石博士学位的科学问题上达到了84%,O3(中型)为81%,O1-Pro的科学问题为79%。对于由代码力测量的编程任务,O3-Pro已获得2748年的ELO音符,超过了2517的O3(中场)和1707年的O1-Pro。

当推理模拟时

以思想或沉思形式制成的结构,从简单到复杂的3D渲染发展。

信用:弗洛里亚纳通过盖蒂图像

外行人很容易被AI模型中“推理”的拟人化主张拒绝。在这种情况下,至于借助拟人化的一词,“幻觉”,“推理”已成为AI行业中艺术的术语,本质上意味着“花费更多的时间来解决问题”。这并不一定意味着AI模型系统地应用逻辑或有能力为实际问题构建解决方案。这就是为什么ARS Technica继续使用术语“模拟推理”(SR)来描述这些模型的原因。他们模拟了人类风格的推理过程,该过程不一定会在面对新挑战时产生与人类推理相同的结果。

来源链接

Related Articles

Back to top button