Robots.txt 并非良策:为大语言模型 / 人工智能提出全新元标签方案

在生成式人工智能产品的新时代,试图通过 robots.txt 文件管理大语言模型的数据使用方式,绝非正确之举。本文将剖析背后原因,并提出全新解决方案。

谷歌目前正围绕大语言模型训练过程中的成果归属版权合规问题展开讨论,但其关注点始终放在 robots.txt 文件上。

然而在我看来,这一工具并不适用于解决该问题。

我的前同事皮埃尔・法尔曾发表一篇关于爬虫、搜索引擎与生成式人工智能企业乱象的精彩文章,其中重点阐述了当前网络出版行业面临的诸多严峻挑战。与他的文章一致,本文仅对该提案做宏观阐述,因该领域的发展速度实在日新月异。

一、为何不应使用 robots.txt

在探讨如何尊重出版商版权的问题上,将 robots.txt 作为切入点存在诸多不合理之处,主要原因如下:

并非所有大语言模型都会使用爬虫,也不会主动标识自身身份

网站运营者需要自行识别并屏蔽各类爬虫 —— 这些爬虫可能会抓取网站数据,用于生成式人工智能产品的开发,甚至将数据转售牟利。这无疑给运营者增添了大量额外且无意义的工作,对中小型出版商而言尤为沉重。

此外,该方式还默认出版商拥有 robots.txt 文件的编辑权限,但对于使用托管服务的网站而言,这一权限并非总能得到保障。

爬虫数量持续增长,该方案缺乏可持续性

根据最新提出的 robots.txt 标准,该文件的可用大小被限制在500KB以内。

这意味着,大型出版商若需在屏蔽其他爬虫的基础上,额外屏蔽大量大语言模型爬虫、精细化屏蔽特定 URL 规则,其 robots.txt 文件很容易触及大小上限,引发使用问题。

“非此即彼” 的选择模式难以接受

对于谷歌机器人、必应机器人这类主流爬虫,我们无法区分其抓取的数据究竟是用于搜索引擎结果页(传统场景中,出版商与搜索引擎间存在 “引用原始来源” 的隐性约定),还是用于生成式人工智能产品

若为了阻止其数据用于生成式 AI 而屏蔽谷歌或必应爬虫,网站也将失去在对应搜索引擎中的曝光机会。这种迫使出版商做出 “要么全要、要么全弃” 的选择,显然难以让人接受。

robots.txt 仅用于管理爬虫抓取行为,而版权讨论的核心是数据的使用方式

后者的核心在于数据的索引与处理阶段。由此可见,robots.txt 与版权问题的讨论并无实质关联,它仅应作为其他方案均无效时的最后手段,绝非该类讨论的合理切入点。

robots.txt 文件在爬虫管理方面的表现本就十分出色,无需为适配大语言模型而做出修改。诚然,大语言模型爬虫需要主动标识自身身份,但我们真正需要探讨的,是对已抓取数据的索引与处理规则。

二、无需另起炉灶

所幸,网络领域早已存在一套成熟的版权数据使用管理方案 ——知识共享协议(Creative Commons)

绝大多数知识共享协议均可直接适配大语言模型的使用需求,具体说明如下:

  • CC0 协议:允许大语言模型以任何媒介、任何形式传播、再混合、改编和基于该素材进行创作,无任何附加条件
  • CC BY 协议:允许大语言模型以任何媒介、任何形式传播、再混合、改编和基于该素材进行创作,前提是注明创作者归属。该协议允许商业使用,但必须向创作者致谢。
  • CC BY-SA 协议:允许大语言模型以任何媒介、任何形式传播、再混合、改编和基于该素材进行创作,前提是注明创作者归属,且允许商业使用。若大语言模型对素材进行了再混合、改编创作,其衍生作品必须采用相同的协议授权
  • CC BY-NC 协议:仅允许大语言模型为非商业目的,以任何媒介、任何形式传播、再混合、改编和基于该素材进行创作,前提是注明创作者归属
  • CC BY-NC-SA 协议:仅允许大语言模型为非商业目的,以任何媒介、任何形式传播、再混合、改编和基于该素材进行创作,前提是注明创作者归属。若对素材进行了再混合、改编创作,其衍生作品必须采用相同的协议授权
  • CC BY-ND 协议:仅允许大语言模型以未经改编的原始形式,在任何媒介、任何形式下复制和传播素材,前提是注明创作者归属,且允许商业使用、必须向创作者致谢,但禁止对作品进行任何衍生或改编
  • CC BY-NC-ND 协议:仅允许大语言模型为非商业目的,以未经改编的原始形式复制和传播素材,前提是注明创作者归属,且禁止对作品进行任何衍生或改编

后两种协议基本无法适配大语言模型的使用需求。

而前五种协议则要求,大语言模型开发者必须明确其对抓取 / 获取数据的使用方式,严格遵守出版商提出的使用要求,例如归属标注、基于该数据开发产品后的共享规则等。

这一方式将责任转移给了全球 “少数” 大语言模型开发者,而非让 “多数” 出版商承担重担。

其中前三种协议同样支持数据的 “传统使用场景”,例如在搜索引擎结果页中,通过链接至原始网站的方式完成归属标注;而第四、第五种协议则可为开源大语言模型的研发工作提供支持。

附言:需注意的是,所有开发大语言模型的软件企业,在开发过程中均会使用开源软件。为避免代码层面的版权侵权,他们在使用软件库和操作系统时,同样面临着版权协议的相关挑战。既然如此,为何要另起炉灶?我们完全可以将类似的体系应用于代码所处理的数据之上。

三、元标签才是最优解

即便出版商选定了合适的版权协议,仍需要一种方式将该协议对外传达 —— 而这一点,再次凸显了 robots.txt 方案的不合理性。

某一页面虽因搜索引擎需求需被屏蔽爬虫,却并不意味着其数据无法被大语言模型使用,或对大语言模型毫无价值。这是两种完全不同的使用场景。

因此,为了区分不同使用场景,为出版商提供一种更精细化、更简便的操作方式,我建议采用元标签替代 robots.txt。

元标签是可嵌入页面层级的代码片段,可集成在网站主题或内容中(我知道这一说法在技术层面并不严谨,但 HTML 的兼容性极强,若出版商对代码库的访问权限有限,这一方式可作为最后手段)。出版商只需拥有已发布内容的 HTML 编辑权限,无需额外的操作权限,即可添加元标签。

noindex元标签不同,本文提出的元标签不会阻止爬虫抓取,其核心作用是声明已发布数据的使用权限

尽管目前已有部分可用于版权声明的元标签 —— 例如都柏林核心元数据、已废弃的 rights-standard 提案、侧重标注版权所有者姓名而非协议类型的 copyright-meta 等,但部分网站对这些标签的现有实现方式,可能与我们的目标产生冲突。

因此,推出一款全新的元标签或许是必要的;当然,我也十分愿意复用现有或废弃的标签,例如上述的 rights-standard。为展开讨论,本文提出以下全新元标签方案:

此外,我建议该元标签也可在HTTP 响应头中使用(如同noindex可在 X-Robots-Tag 中使用一样),以便大语言模型爬虫更高效地管理其抓取资源 —— 爬虫只需检查 HTTP 响应头,即可验证数据的使用权限。

X-Robots-Tag: usage-rights: CC-BY-SA

该标签可与其他元标签结合使用。例如以下示例中,该页面的数据不得用于搜索引擎结果,但可用于商业大语言模型开发前提是注明数据来源

X-Robots-Tag: usage-rights: CC-BY, noindex

:元标签的名称 “usage-rights” 仅为提案,可根据实际情况调整。

四、万无一失的解决方案

诚然,目前存在一些不良爬虫和不良从业者,他们在开发大语言模型和生成式人工智能产品时,会采取违规手段抓取数据。

本文提出的元标签方案无法完全阻止这类侵权行为,但robots.txt 同样做不到

我们必须明确一点:无论是元标签还是 robots.txt,其有效性均依赖于使用数据开发 AI 产品的企业的自觉认可与遵守

希望本文能阐明我的核心观点:在大语言模型与生成式人工智能产品的新时代,将 robots.txt 作为管理数据使用方式、解决版权问题的切入点,是完全错误的。

本文提出的元标签实施方案,可让出版商基于知识共享协议,在页面层级精准声明版权信息,同时不会阻碍页面因其他用途(如搜索引擎结果)被爬虫抓取和索引。此外,该方案还支持为多种使用场景做版权声明,包括大语言模型、生成式人工智能产品,以及未来可能出现的各类人工智能产品。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注