英国《卫报》限制互联网档案馆访问文章：防止 AI 爬虫间接抓取内容

英国《卫报》商业事务和授权主管 Robert Hahn 向 NiemanLab 确认，为最大程度降低 AI 通过快照间接抓取其内容的可能性，这家有着超 200 年历史的老牌媒体限制了互联网档案馆 (Internet Archive) 对其文章的访问。

《卫报》认为互联网档案馆提供的 API 对于想要获取该媒体内容的 AI 公司而言是一个理想的替代入口，因此其已将自身网站排除在该 API 的适用范围之外；此外《卫报》还让其文章页面从互联网档案馆下线。互联网档案馆依旧可存储《卫报》的地区主页、专题页面和其它主页的快照。

AI 的发展对开放的传统互联网精神带来了新的挑战，“负责任地抓取数据”理论上有利于生态各方却难以落地实践。在《卫报》之前《纽约时报》、Reddit 等也禁止或限制了互联网档案馆对其内容的访问。