AI行业：浅析AI大模型训练数据来源与版权挑战_影响_规模

（精选报告来源：幻影视）

一、大模型常使用文本图片视频等公共数据集混合体作为预训练语料库

训练数据是构建和优化 AI 模型的基石，大模型常使用文本图片视频等公共数据集混合体作为预训练语料库。

(1) 在算力可获得性提升以及算法同质化趋势下，训练数据成为影响大模型性能的重要因素。具体而言，训练数据可以从数据规模、数据质量和数据即时性等方面对模型的训练效果产生影响。伴随着 AI 大模型的发展，训练数据集在规模和质量上也逐渐提升。目前，AI 领域正经历从以模型为中心到以数据为中心的转变。

(2) 区别于传统的 AI 模型训练，大语言模型常使用维基百科、书籍期刊、论坛等多样化的公共文本数据集的混合体作为预训练语料库，而多模态大模型则需要大规模的图片、视频和语音等多模态训练数据。这些训练数据的获取方式多种多样，主要包含公开渠道、企业自研、直接购买和合作交换等方式。

（一）数据成为影响 AI 大模型效果的重要差异化环节

训练数据是构建和优化 AI 模型的基石，AI 系统从输入的训练数据中进行学习。大模型训练数据包含文本、图像、语音、视频等结构化与非结构化的多种形式，大规模、高质量、多样化的训练数据集使得模型能够更深刻地理解上下文，并生成准确性与相关性更高的回复，相反，规模较小、低质量、缺乏多样性的数据集可能会导致模型结果产生偏差或生成无效回复。因此，训练数据在提升 AI 大模型的性能和应用效果中扮演着重要角色。

算力可获得性提升及算法同质化趋势显现，数据成为真正影响与区分 AI 大模型效果的重要环节。2017年，Transformer 架构的出现奠定了大模型算法架构的基石。 Transformer 架构包含编码器（Encoder）和解码器（Decoder），基于此诞生了三大技术路线——Decoder-Only、Encoder-Only 和 Encoder-Decoder。一方面，目前大模型的技术路径多集中在这三大技术路线，呈现同质化趋势；另一方面，算力可获得性在持续提升，瓶颈效应逐渐减弱。此外，有研究发现，在不同的 AI 大模型中使用相同的数据集，最终会表现出较为相似的行为。因此，在算力可获得性提升以及算法同质化趋势下，模型效果的独特性受到输入的训练数据集影响，训练数据成为区分且影响大模型性能的重要因素之一。

AI 大模型的训练数据集在规模和质量上逐渐提升。以 OpenAI 的 GPT 系列模型为例，2018 年的 GPT-1 数据集约为 4.8GB，2019 年的 GPT-2 数据集约为 40GB，而 2020 年的 GPT-3 数据集规模已超过 500GB，质量上也逐渐提升。尽管如此，GPT 系列模型架构并未发生较大变化，都是基于 Transformer 架构。

（二）AI 大模型训练数据来源分类

AI 大模型的训练数据与传统 AI 训练数据有所差异。对于传统 AI 训练，常用的有 MNIST、ImageNet、Open Images 等数据集，这些数据集可用于自然语言处理、计算机视觉和语音识别等传统 AI 应用。研究人员经常使用这些数据集作为创建、评估和对比 AI 模型有效性的标准，用户也可以根据开放许可条款访问、使用、更改和共享这些公开数据集。

大语言模型常使用多样的公共文本数据集的混合体作为预训练语料库。具体而言，国内外大语言模型训练数据集的主要来源为维基百科、书籍期刊、论坛、代码、 Common Crawl（CC）网页数据集和其它数据集等，其中部分经典模型所使用的训练数据分类拆解如下表所示。

（三）AI 大模型训练数据获取途径

数据成为影响 AI 大模型效果的重要差异化环节，其规模、质量与多样性直接影响模型的性能和应用效果。那么以上提到的各种类别的训练数据从何处获取？其获取途径多种多样，主要包含公开渠道、企业自研、直接购买和合作交换等方式。我们总结，AI 大模型的训练离不开高质量的数据来源，大语言模型常使用维基百科、书籍期刊、论坛等多样的公共文本数据集的混合体作为预训练语料库，而多模态大模型则需要大规模的图片、视频和语音等多模态训练数据。这些训练数据的获取方式多种多样，主要包含公开渠道、企业自研、直接购买和交换合作等方式。然而，随着 AI 技术的快速发展和广泛应用，AI 厂商在获取和使用数据时，常面临法律和道德上的挑战，围绕数据版权的争议也在日益增多。

二、AI 大模型训练面临的数据版权挑战

生成式 AI 领域发展迅速，然而伴随的却是日益增多的数据版权纠纷。版权纠纷主要聚焦于模型训练阶段未经授权的版权利用行为，此外，也包含 AI 模型输出本身对于版权的侵犯。目前，内容持有者正在针对 AI 平台提出各种维权诉求，有数十起版权诉讼正在进行中，另一部分内容持有者则走上了授权合作的道路。内容持有者具体选择诉讼还是合作取决于其商业模式、内容独特性和行业结构等，并面临着多重机会与挑战。

（一）训练数据需求下，数据版权诉讼激增

生成式 AI 领域发展迅速，数据版权纠纷日益增多。因为 AI 大模型需要大量数据进行训练，为了获得这些数据，众多 AI 公司冒着被起诉的风险，“抓取”互联网内容来获取数据，或在其它受知识产权保护的内容上训练模型，因此导致了数据版权诉讼激增。目前，众多内容持有者正在针对 AI 平台提出各种维权诉求，有数十起 AI 训练数据版权诉讼正在进行中，指控 AI 厂商因使用受版权保护的内容进行训练，其中原告来自各行各业，包括作家、音乐出版商和新闻媒体等，以集体诉讼为主。

（二）授权合作，内容持有者的新道路

面对生成式 AI 的发展浪潮，部分内容持有者选择抵制 AI 公司并控诉其侵权行为，但同时另一部分则走上了授权合作道路。对于内容持有者来说，授权合作可以带来与诉讼和解相当甚至更多的现金收益，而且速度更快，同时这些交易还有助于其将 AI 应用于业务优化；对于 AI 公司，通过与内容持有者合作，不仅能获取高质量的新闻数据以改进模型效果，还能确保数据的合法来源，避免侵犯版权。因此，这种合作对双方皆有益。目前，OpenAI、苹果、谷歌等公司与内容持有者签署了数十个内容许可协议，并有许多协议正在洽谈中。

（三）诉讼或合作？内容持有者面临的选择、机会与挑战

结合对于以上诉讼与授权合作案例的讨论分析，我们有如下发现：

1. 内容持有者具体选择诉讼还是合作取决于其商业模式、内容独特性和行业结构等。我们发现，艺术家们普遍倾向于抵制 AI 公司并控诉其侵权行为，而新闻媒体在版权保护的斗争中却难以形成统一阵线。《金融时报》、美联社和 Axel Springer 等新闻媒体选择与 AI 公司合作，签订付费协议，而《纽约时报》和一些地区性报纸等则选择抵制与诉讼，这种选择差异导致新闻行业在版权保护上的一致行动受到削弱。

2. 内容持有者面临的商业机会合作授权一般不具有排他性，同一数据集可被用于训练多个模型。除非是通过公司的并购交易等方式进行授权或直接买断，内容持有者授权一般不具有排他性。例如， Reddit 同时与 Open AI、谷歌等签订了内容授权协议，而 Shutterstock 也将其图片数据授予给 OpenAI、苹果等多家公司用于训练 AI 模型。

3. 内容持有者面临的挑战内容持有者可能会面临两难局面。AI 公司训练大模型所需的数据类型与数量有所差异，可能无需从所有内容持有者那里获得许可。对于内容持有者而言，最好的集体结果是抵制授权其内容并将价值保留在其平台内。然而，若不能与 AI 厂商达成协议，便有可能出局，对被拒之门外的恐惧可能会迫使部分内容持有者授权其内容，甚至不断降低授权价格，并开始恶性循环，因此内容持有者将会面临两难局面。此外，起诉的高成本也可能会给内容持有者造成压力，迫使其考虑和解。

内容持有者面临的另一挑战是量化其内容的商业价值。由于缺乏统一的标准和透明的评估机制，内容持有者在与 AI 公司谈判时可能处于不利地位，难以确保自身内容的合理定价。此外，AI 公司对内容需求的多样性和动态变化使得内容持有者在确定内容价值时面临更多不确定性。这种量化挑战迫使内容持有者需要在创新商业模式和保护自身利益之间找到平衡。

此外，内容持有者还将面临由于 AI 模型输出内容侵权而带来的法律问题。当 AI 公司在训练模型时使用了未经授权的受版权保护内容，可能导致生成内容的侵权，并让内容提供者面临法律诉讼的风险。因此，尽管是 AI 公司进行模型训练，但内容持有者可能因提供了这些数据而被卷入法律纠纷，被指控间接侵犯版权。

2024 年有望成为 AI 训练数据版权之争的关键年。关于 AI 训练数据版权诉讼，国内外尚未达成判例，重点案例的判决将对未来行业发展产生重要意义，需持续关注。同时，越来越多的公司正在明确其立场，显示出行业整体对于训练数据版权问题重视程度的提升。2024 年有望成为 AI 数据版权之争的关键年，将会有更多诉讼、谈判和合作展开，但未来授权合作或快于法律变革与监管介入。

当内容合作商对于训练数据版权的立场明确后，大模型研发的不确定性将被消除，应用发展也将进一步加速。训练数据作为成本项，与下游应用的商业化推广密切相关，二者相辅相成。若数据合作显著加速，这将标志着 AIGC 应用即将迎来商业化落地的飞跃。

报告原文节选如下：

本文仅供参考，不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读，用户获取的资料仅供个人学习，如需使用请参阅报告原文。返回搜狐，查看更多

AIGC资源社

AI行业：浅析AI大模型训练数据来源与版权挑战