分享文章
维基媒体基金会:为 AI 训练数据集抓取资源的网络爬虫正带来运营开支压力
维基百科运营方维基媒体基金会在当地时间 4 月 1 日的一份博文中表示,为 AI 训练数据集抓取资源的网络爬虫正对这家非营利性组织带来运营开支上的压力。

维基百科的姊妹项目维基共享资源(IT之家注:Wiki Commons)存储着大量可用于 AI 模型训练的多媒体资料集。根据统计数据,自 2024 年 1 月以来从维基共享资源下载多媒体内容的带宽增长了 50%,而这一变化趋势主要由自动化程序而非人类操作导致。
维基媒体基金会此前有能力应对突发事件导致的人类用户的流量激增,但 AI 时代自动爬虫活动的日益频繁正不断侵蚀该组织现有的冗余度,让基金会将大量时间和资源用于响应非真人流量。
维基媒体基金会的数据存储的模式是低使用频率内容仅存放在核心数据中心,而高频请求的数据则将在更邻近的数据中心提供备份。
自动爬虫的“遍历式”查询方式意味着其有更多的流量发送到核心数据中心,这带来了更高的流量成本。根据维基媒体基金会的统计,机器人以 35% 的总体浏览量消耗了 65% 的核心数据中心流量资源。
此外,自动爬虫甚至还去访问了维基媒体基金会开发环境关键系统(如代码审查平台、错误跟踪器)的 URL。
维基媒体基金会表示虽然该组织是非营利的,各项目的内容是免费提供的,但其基础设施却不是免费获得的,应建立一个负责任、可持续的基础设施使用规范,勿重演“公地悲剧”。

[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平总书记海南广东之行纪实 7904018
- 2 13岁小孩姐打破尘封13年的亚洲纪录 7809622
- 3 “最丑建筑”铜钱大厦拍卖 无人报名 7713896
- 4 跟着全运会吉祥物打卡世界级湾区 7616522
- 5 律师银行取款4万遭盘问:具体买什么 7523295
- 6 全运会选手倒地庆祝后发现比赛没结束 7428611
- 7 员工半年迟到32次被辞退 法院判了 7333815
- 8 从7元涨到40元 奶皮子一天一个价 7232203
- 9 暴走团现身香港 放音乐打扰其他游客 7137007
- 10 为啥医院椅子有的密密麻麻带小孔 7046878







luvsummer
