反盗版组织下线AI训练数据集 “Books3” Meta大模型也曾使用 2023-08-22 12:01:02

本文概要:

1. 反盗版组织成功要求在线盗版书籍资源库 The Eye 下线 AI 训练数据集 "Books3"。

2. "Books3" 数据集包含了37GB 的文本，用于训练人工智能模型，已被多家公司使用。

3. 反盗版组织表示 AI 对版权产生了新的挑战，计划继续打击其他存有该数据集的网站。

近日，反盗版组织成功要求在线盗版书籍资源库 The Eye 下线 AI 训练数据集 "Books3" 的事件。"Books3" 数据集是一个大规模的盗版书籍资源，包含了37GB 的文本，用于训练人工智能模型。

Books3存储库包含196，640本书，全部采用 plain.txt 格式，旨在为新兴的 AI 项目提供与 ChatGPT 制造商 OpenAI 等项目竞争的优势。

丹麦的反盗版组织 Rights Alliance 向 The Eye 发送了 DMCA 通知书，要求其下线该数据集。该组织表示，Books3数据集包含其成员公司出版的约150本书。Rights Alliance 还联系了 AI 模型托管网站 Hugging Face（该网站托管了数据卡和 Books3下载链接）以及 EleutherAI。两个组织都将反盗版组织的目标指向了“The Eye”。

非营利研究组织 EleutherAI 最初发布 Books3作为 AI 训练集 The Pile 的一部分，The Pile 是一个800GB 的开源训练数据块，其中包含22个专门为训练语言模型而设计的其他数据集。

尽管 "Books3" 数据集已被下线，其发布者Shawn Presser（人工智能开发人员和著名开源人工智能支持者）又在 Twitter 上发布了两个新的下载链接。反盗版组织表示将继续追踪和打击存有该数据集的网站。

尽管如此，大型科技公司在训练 AI 模型时使用版权数据的普遍性，但这些公司并不会公开发布其训练数据，这造成了与个人和非营利项目的不公平竞争。反盗版组织表示，AI 对版权产生了新的挑战，需要加强监管和规范。

据了解，Meta 等公司也使用了 "Books3" 数据集来训练 AI 模型。在描述原始 LlaMA 语言模型的白皮书中，Meta 研究人员将 Books3描述为“用于训练大型语言模型的公开数据集”。Meta 引用了来自The Pile的这个数据集。另外，OpenAI 的 GPT-3模型使用 Books2训练集来训练其 AI。Books1和 Books2都占 GPT-3训练数据的近15%。

本文地址：/news/3531.html

相关标签：反盗版组织下线AI训练数据集 Books3 Meta大模型也曾使用