AI机器人应变Wikimedia,带宽增加50%

逃避检测的爬行者
使情况变得更加困难,许多专注于AI的机器人不遵守既定规则。有些人忽略了robot.txt指令。其他人则对浏览器用户的代理商进行培训,以掩饰自己为人类访客。有些人甚至通过住宅IP地址进行避免阻塞,这些策略已经变得足够普遍,以迫使Xe IASO这样的个体开发人员为其代码标准采取严厉的保护措施。
这留下了维基梅迪亚 站点可靠性团队 处于永恒的国防状态。从流量到衰减的费用限制限制的每个小时,它没有花费时间来支持贡献者,用户或Wikimedia的技术改进。这些不仅是紧张局势的平台。开发人员的基础架构,例如Wikimedia Code Review工具和错误跟踪器,也经常被刮刀击中,转移注意力和资源。
随着时间的流逝,这些问题反映了AI刮擦生态系统中的其他问题。卷曲开发人员丹尼尔·斯滕伯格(Daniel Stenberg A) 以前详细介绍 AI-Gente人类时代产生的错误的报告在多大程度上。在他的博客上,Sourcehut的Drew Devault 强调 机器人如何锤击诸如GIT报纸之类的终点,远远超出了人类开发人员所不需要的东西。
在互联网上,开放平台体验技术解决方案:证明工作的证据,缓慢的响应篷布(例如nepenthes),协作机器人块列表(例如“ai.robots.txt”)以及诸如Cloudflare的AI迷宫之类的商业工具。这些方法涉及为人类读者设计的基础设施与AI培训的工业水平之间的技术不足。
开放危险
Wikimedia认识到提供“作为服务的知识”的重要性,并且其内容确实得到了自由授权。但是,正如基金会清楚地表明的那样:“我们的内容是免费的,我们的基础设施不是。”
该组织现在专注于在一项新倡议的背景下的系统方法: WE5:负责使用基础架构。它提出了有关开发人员对具有高强度资源强度和建立可持续边界的访问方法的指导的关键问题,同时保留了开放。
挑战在于两个世界的桥接:开放知识的基准和AI的商业发展。许多公司都依靠开放知识来培训商业模型,但没有为使知识访问的基础架构做出贡献。这产生了技术不平衡,威胁着社区管理的平台的可持续性。
AI开发人员和资源提供商之间更好的协调可以通过专用API,共享基础架构的资金或更有效的访问模型来解决这些问题。没有这样的实际协作,取得了AI进度的平台可能难以维持可靠的服务。 Wikimedia的警告很明显:获取自由并不意味着后果自由。