AI已经开发了:更好地评估和报告卡是更好的

新的 Llama4模型 似乎是本月初梅塔(Meta)推出的。”无与伦比的速度和技能“但是它实际上使它成为最好的AI?不一定。

AI模型通常会在标准中获得传球等级 基准和排行榜但是,当使用现实世界时,犯了一个令人尴尬的错误。

例如,Google的双子座应该有“已经超过了人类专家“根据几个标准。但是,AI创造了 历史 反正。

包含其他顶级AI模型 撒谎关于真实的人建议业务 犯法有些人掉了从找工作。我们评估AI的有效性的方法不会转化为现实世界的应用和结果,这是一种症状。

我们需要一张报告卡,以评估AI的整体。

如今,基于经常测量模型执行某些任务的基准评估AI模型。流行指标的一个示例之一包括模型可以做到的准确性问题的答案它如何准确地确定下一个逻辑结果 事件多么好 写代码图像理解是否 人们喜欢AI的内容。

这些指标中的一些是AI在社会中较差和普遍存在的时代的象征,而它们不是AI的正确技能。

自动驾驶汽车需要与船上的传感器正确识别物体,这不足以避免单独碰撞。他们还需要了解如何删除流量以及如何响应不安全,不安全的驾驶员。

不应接受旨在帮助诊断或任命可靠治疗的决定的AI培训的基本颜色,社会经济和种族偏见。但是,如果AI按照无法评估这些领域的性能的标准获得传递等级,则该模型可能比真实的能力更有能力。

后果可能会在新兴的高市应用中引起麻烦。

要了解AI的性能,我们需要为当今的应用程序领域制定更相关的以结果为中心的标准。是否想创建一个可以提供法律或商业建议的聊天机器人?它的建议将是合法的,潜在的,并且由于我们需要知道的所需结果。

我们还需要了解AI的其他费用。它的优势是增加水和能源消耗吗?我们是否对其长期影响感到满意?

我们如何获得更有效的标准?

对于初学者来说,AI开发人员需要了解他们的产品和产品是从利益相关者和客户的角度实施的。有了这些知识,公司和基准开发人员可以确保他们的数据可以评估足够的AI。

我们还需要学习如何在向公众介绍之前更好地确定,识别和减少AI的有害,非自愿后果。人工智能开发人员和治疗,商业和法律专业人员对于真正的成功是必要的。

基准开发人员还需要确保用于基准测试AI培训的数据,该数据可以通过已知数据进行评估的AI传递。

理想情况下,基准和AI开发人员将进行调整,以确保培训和基准测试数据集不是重叠的。当困难或不可能时,基准开发人员应将其数据集刷新,以确保基准数据已意外吸收到培训数据中。

有效的标准将需要持续维护;随着长凳的增加,与标准重叠的风险增加。

政策制定者还可以通过保留正确的激励措施来确保我们获得了有效的AI标准。证书可以帮助机构证明AI是否需要由人类专家验证的透明,以结果为中心的标准有效。法规还可以应用最佳实践,例如检查公共版本而不是AI模型优化的分支以及确认标准是透明且相关的。

但是,要执行法规,我们的价值将需要开发和应用新的专用公司,因为AI并不能很好地属于现有机构的管辖权。

AI是一个强大的工具,具有很多好的工具,并且可能会受到损害。有效的标准和基准政策可以帮助我们将AI推向正确的方向。

Lu Wang是密歇根大学计算机科学与工程学副教授,密歇根大学信息学院的信息副教授,密歇根州工程学院电气工程与计算机科学副教授。他们是“同伴”‘WILDE AI系统用于评估结构这 ”” ”

来源链接

Related Articles

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Back to top button