分享文章
Reddit论坛将阻止互联网档案馆抓取页面 因为AI公司从互联网档案馆抓取数据
知名互联网论坛 Reddit 日前透露该公司发现人工智能公司通过互联网档案馆 (Internet Archive) 的网站时光机 (Wayback Machine) 抓取来自 Reddit 的数据,这种行为已经违反 Reddit 使用条款。

Reddit 此前已经阻止大多数搜索引擎爬虫和人工智能爬虫抓取数据,如果要抓取数据用于人工智能模型训练的话,则需要与 Reddit 签署商业许可证并支付费用后才能抓取。
例如谷歌就每年向 Reddit 论坛支付高达 6000 万美元以获得数据访问权,谷歌可以通过抓取 Reddit 海量帖子和其他数据用于模型训练,对谷歌来说这仍然是个值得的交易。
而互联网档案馆长期以来与 Reddit 合作索引帖子并将其快照到网站时光机中以便可以在未来查看,不想支付费用的人工智能公司开始将爬虫转向互联网档案馆,通过互联网档案馆作为抓取 Reddit 的媒介。
发现这种情况后 Reddit 决定立即开始阻止互联网档案馆对于大多数页面的抓取和索引,网站时光机功能无法再抓取帖子详情页面、评论和个人资料,相反网站时光机只能有限的抓取 Reddit 首页或者热门帖子导航,也就是只能抓取标题之类的内容。
Reddit 首席执行官称从今天开始阻止互联网档案馆的数据抓取,同时已经提前联系互联网档案馆并在限制生效前告知他们。互联网档案馆称目前正在积极与 Reddit 就此事进行沟通。
此前 Reddit 还起诉 Claude 开发商 Anthropic,Reddit 指控 Anthropic 未经授权抓取内容,即便 Reddit 声明阻止其爬虫抓取数据,Anthropic 也依然还会继续抓取内容并违反 Reddit 使用条款。

[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 在法治轨道上推进中国式现代化 7904410
- 2 李强总理没有会见日方领导人的安排 7808718
- 3 日本高官抵京 面对记者提问一言不发 7713065
- 4 “中国屏”靠什么逆袭 7615880
- 5 部分日本电影宣布暂缓上映 7523742
- 6 生育津贴无需结婚证直发个人 7428577
- 7 净网:任性宣泄不可取 两人被行拘 7328977
- 8 日本极右翼也怕了:这点国力何必惹事 7236395
- 9 高市早苗正在反省其涉台言论 7139020
- 10 公厕被打女孩家庭已无力承担医疗费 7041012







离异带俩喷火王八
