您的位置 : 环球研究 / 环球评论 / 新闻详情
生成式AI与知识产权系列 | (二)生成式AI输入环节的训练语料著作权侵权风险问题
2025年07月17日李占科 | 张晓荣

训练语料,通常也称训练数据,指所有直接作为生成式AI模型训练输入的数据[1]。根据来源的不同,一般可以分为开源数据、生成式AI服务提供者自行采集的数据、商业训练数据和生成式AI产品/服务使用者输入的信息。海量的数据是生成式AI得以发展的基础和根本,却面临着很高的著作权侵权风险和争议。争议集中在使用海量数据进行AI模型训练是否构成合理使用。这影响着训练数据权利人(主要指作品著作权人)与生成式AI服务提供者之间的“利益划分”。本文将梳理总结国内外司法实践及理论界的相关观点,在此基础上结合国家市场监督管理总局和国家标准化管理委员会于2025年4月25日发布(将于2025年11月1日实施)的《网络安全技术 生成式人工智能服务安全基本要求》(GB/T 45654-2025)给生成式AI服务提供者提供获取使用训练数据的合规建议。

 

一、我国司法实践现状及相关观点

 

(一)我国目前尚未有权利人主张训练数据构成著作权侵权的生效裁判。有部分案件正在法院审理程序中。在个别权利人未主张训练语料本身侵权、但将删除训练数据作为诉请之一的案件中,法院认定生成式AI服务提供者对训练数据的使用属于合理使用

 

在广州互联网法院“奥特曼授权方诉Tab AI平台方”案[2]中,尽管该案原告提出了将涉奥特曼物料从被诉AI训练数据集中删除的诉请,但法院查明该案被告并未实际进行涉奥特曼模型训练行为,因此未予支持该诉请。但该案反映出生成式AI训练语料著作权侵权纠纷问题已经进入了实践视野。

 

据公开报道,目前有如下权利人主张利用其作品训练AI模型构成侵权的案件正在法院审理程序中:其一,2023年11月29日,国内某画师发布维权微博,称其和其他三位画师已向北京互联网法院起诉,指控小红书利用其作品训练AI模型构成侵权[3]。目前该案尚未公开有判决作出,其中一位画师(正版青团子)最新相关微博停留在2024年6月8日关于案件聘请专家辅助人的“求助帖”,称法院要查明“AI的训练、用户使用AI的技术原理和呈现过程”。[4]其二,2025年1月,爱奇艺向上海市徐汇区人民法院提起诉讼,指控稀宇科技(MiniMax)旗下海螺AI在模型训练及内容生成流程中涉嫌侵犯其著作权,要求停止侵权并赔偿损失。[5]

 

在杭州市中级人民法院“奥特曼授权方诉某AI平台方”案[6]中,原告将删除训练数据作为了诉请之一,法院认定被告对训练数据的使用属于合理使用。该案基本案情为:原告获得了奥特曼系列作品的独占著作权授权,其主张被告作为被诉AI平台的备案和运营主体通过输入图片等数据进行训练后生成的方式将被诉侵权图片和被诉奥特曼LoRA模型置于信息网络中构成侵权。具体来讲:被告通过被诉AI平台提供基础模型Checkpoint和叠加模型LoRA模型,支持文生图、图生图、模型在线训练等功能。用户在该平台通过上传在其他网站下载的奥特曼图片并使用基础模型训练出奥特曼LoRA模型,训练完成后的奥特曼LoRA模型可被用户反复使用并在此基础上生成其他奥特曼侵权图片并发布在平台上;以奥特曼相关关键词进行搜索,可在被诉平台“广场”作品界面和叠加模型LoRA栏目上以浏览或下载等方式获得5张奥特曼图片和8个奥特曼LoRA模型。

 

即该案原告主张的被诉行为对象为被告利用被诉AI平台生成/输出的被诉侵权图片和侵权模型,但诉请中还包括了被告删除涉奥特曼物料和数据的内容。一审杭州互联网法院认定了被诉生成图片及生成模型的行为构成著作权侵权,支持了原告删除被诉生成图片及生成模型的诉请,但未支持“概括性地要求被告删除与奥特曼有关的全部物料和相关数据的诉请”,理由为生成式AI训练数据并非以再现作品的独创性表达为目的,且一般情况下数据训练及生成过程中也未将在先作品展示给公众,在无证据证明生成式AI是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下,可以被认为是合理使用。其具体论述为:“对于生成式人工智能应持审慎包容的态度,鼓励技术进步和商业发展。生成式人工智能的创设与发展,需要在输入端引入巨量的训练数据,其中不可避免会使用他人作品。鉴于生成式人工智能在数据训练阶段使用他人作品的目的,原则上应是用于学习分析在先作品所表达的思想感情、语言特征、特色风格等内容,从中提取出相应的规则、结构、 模式、趋势,便于后续转换性创作新作品。该种使用行为聚合大量作品作为分析样本数据进行提高作品创作能力训练,并非以再现作品的独创性表达为目的,且一般情况下数据训练只是对语料数据作结构特征分析时暂时保留了在先作品,数据训练及生成过程中也未将在先作品展示给公众,因此,在无证据证明生成式人工智能是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下,可以被认为是合理使用。在用户仍可以学习、研究、欣赏自己存储在平台中的相关图片或者对该图片进行其他合理使用且并未对外传播,或者存在权利人或其授权人自行使用相关图片等情形下,对于上海某文化发展有限公司概括性地要求判令杭州某智能科技有限公司删除与奥特曼有关的全部物料和相关数据的诉请,超出了杭州某智能科技有限公司应负担的义务,不予支持。”该案原告在二审中未就著作权侵权问题进行上诉,因此二审杭州市中级人民法院未再评述此问题。

 

(二)司法实践有观点认为整体上应考虑权利人和作为数据使用方的生成式AI服务提供者的利益平衡;但也有观点认为,相比于输出阶段应侧重侵权的规制、注重权利保护,输入阶段更应侧重促进数据的获取和使用

 

广东省高级人民法院《关于以高质量知识产权审判工作促进人工智能科技创新和产业发展的意见 》第八条指出:“……充分认识数据资源对人工智能模型训练的基础性作用,综合考虑数据收集、分析等行为的必要性,既要保护作品著作权或数据合法权益,也要契合技术应用的合理需求。依法规制涉数据要素的不正当竞争行为,促进数据资源合法流动和有效利用,推动人工智能产业发展。鼓励企业通过数据知识产权登记明晰数据来源,引导合法合规获取数据资源。……”

 

而在前述杭州市中级人民法院“奥特曼授权方诉某AI平台方”案[7]中,一审杭州互联网法院认为:“从促进生成式人工智能技术发展的角度来看,对于大模型的数据输入、数据训练行为的侵权认定,宜采取相对宽松包容的认定标准,对大模型的生成内容输出、生成内容使用行为的侵权认定,则宜采取相对从严的认定标准,通过分类施策实现发展与保护的平衡。” 本文认为,这也是该院认为作为生成式AI服务提供者的被告的训练数据行为构成合理使用的出发点。当然,该院在未支持原告“概括性地要求被告删除与奥特曼有关的全部物料和相关数据的诉请”的情况下也强调了被告应承担与其信息管理能力相应的注意义务,即被告应立即采取必要措施有效制止侵权行为,在提供服务的过程中防止用户生成并发布侵害原告信息网络传播权的图片或模型,即对于输出阶段该院认为应严控侵权的发生。

 

北京知识产权法院副院长杜长辉亦在2025年3月27日举办的2025中关村论坛全球知识产权保护与创新论坛上发言表示:“法院在裁判时应坚持促进与规范并重,推动技术向上、向善发展。一是妥善处理利益平衡。在生成式人工智能技术应用的不同阶段,采用差异化的保护原则,注重平衡各方利益。在模型预训练阶段,侧重促进数据的取得和使用;在生成传播阶段,更加注重权利保护,防止侵权内容的生成和传播。”[8]

 

二、域外司法实践情况

 

(一)美国最新有认定生成式AI使用训练数据构成合理使用的案例

 

1. Andrea Bartz、Charles Graeber及Kirk Wallace Johnson诉Anthropic案(以下简称“Anthropic”案)

 

2025年6月23日,美国北加利福尼亚地区法院就作家Andrea Bartz、Charles Graeber及Kirk Wallace Johnson于2024年8月起诉Claude AI软件服务商Anthropic的版权侵权诉讼案作出关于合理使用的裁决[9],认定使用受版权保护的作品进行人工智能训练属于合理使用。

 

该案中,Anthropic提出启动合理使用即决判决程序的动议、获得法院许可,Anthropic在其动议中主张其使用被诉书籍的初始复制件具有正当性、因为这些复制件至少是训练大模型的合理必需资源(然而其拒绝提交实际用于训练大模型的具体复制件乃至复制件集合的记录)。 法院在裁决中认定使用受版权保护的作品训练Claude及其前代模型的行为构成合理使用,法院对合理使用四要素的具体分析如下:第一个因素——就使用的目的和性质来看,使用受版权保护的作品训练大模型以生成新文本类似人类通过阅读学习写作,并非为了超越、复制或取代原权利作品,而是通过分析文本统计关系生成新内容,具有高度转换性,因此该因素对Anthropic有利。第二个因素——就被使用作品的性质来看,Anthropic承认所有原告主张作品均包含表达性元素,因此该因素对Anthropic不利。第三个因素——就被使用作品的数量及其占整体作品的实质性比例来看,各方均认可Anthropic需要数十亿单词训练单个大模型,如仅使用书籍每个模型需要数百万册图书,原告未质疑训练大模型所需的文本量确属海量,因此使用海量作品具有合理性和必要性;且无证据表明Claude向公众输出的内容构成侵权,即基于海量数据训练大模型产生的重大效益并未因作品向公众披露而减损,因此该等复制行为具有合理性和必要性,该因素对Anthropic有利。第四个要素——就对市场的影响来看,用于训练特定大模型的复制行为不会替代对原告权利作品的市场需求、至少不构成版权法意义上的替代效应,当然该院同时强调原告承认Claude大模型训练未产生任何其作品的完整复制件、亦未向公众提供侵权衍生作品,若存在此类情形,该案的性质将截然不同,因此该因素对Anthropic有利。

 

同时,法院在该案中认定,从盗版网站获取作品的行为构成单独侵权,盗版图书副本不能被视为训练副本、对这部分材料的使用不属于合理使用。

 

2. Richard Kadrey等诉Meta Platforms案(以下简称“Meta”案)

 

2025年6月25日,同样是美国北加利福尼亚地区法院就Richard Kadrey等作家起诉Meta Platforms使用权利作品(书籍)训练大模型Llama构成版权侵权案作出简易裁决[10],认定Meta的行为构成合理使用。

 

法院在裁决开篇首先指出尽管判断的关键在于案件具体细节、但多数情形下未经许可使用版权人作品的行为应属违法,企业使用受版权保护作品训练生成式AI模型的行为往往将严重削弱原权利作品的市场价值。尽管如此,法院需关注该案当事人提交的证据对该案Meta使用原告书籍训练其大模型的行为是否构成合理使用进行判定,尤其需关注新技术及其潜在影响。

 

法院对合理使用四要素的具体分析如下:第一个因素——就使用的目的和性质来看,Meta使用原告书籍的行为具有高度转换性,即相较原权利作品具有“进一步目的”和“不同性质”,表现为Meta使用原告书籍的目的在于训练其大模型Llama、该大模型可生成多样化文本并执行广泛的功能,而原权利作品的用途主要在于供人阅读以获取娱乐或教育,因此该因素有利于Meta。第二个因素——就被使用作品的性质来看,原告的书籍主要为小说、回忆录与戏剧,均属于版权法着力保护的作品类型,因此该因素不利于Meta。第三个因素——就被使用作品的数量及其占整体作品的实质性比例来看,复制作品的量不具有特殊关联性,即便Meta完整复制了原告书籍,鉴于复制行为与Meta转换性使用目的之间的关联,其复制量也具有合理性和必要性,因此该因素有利于Meta。第四个要素——就对市场的影响来看,由于Meta对原告书籍的使用具有高度转换性,因此原告需就该第四个要素取得决定性优势才能胜诉,但原告未提供任何其市场被影响或稀释的有效证据,因此该因素有利于Meta。该案法官Vince Chhabria认为上述Anthropic案中的William Alsup法官过度关注生成式AI的转换性质,却漠视训练行为对训练作品市场造成的损害风险,Vince Chhabria法官认为使用书籍培训儿童写作与利用书籍创建可供单人使用的产品不可同日而语,后者能以微小时耗及创造力生成海量的竞争作品,因此此等不当类比并非排除合理使用核心要素(第四个要素)的正当依据。

 

同时,法院在该案中认定Meta获取并使用盗版作品的行为不单独构成侵权,因为Meta将该等作品用于AI大模型训练目的,此种使用属于转换性用途。此观点与上述Anthropic案中的观点截然相反。

 

此外,需要注意的是,该案法官在裁决中强调该裁决的影响有限,该裁决不代表Meta使用版权材料训练其大模型具有合法性的立场,该裁决仅基于该案原告的主张和举证作出。

 

3. 美国版权局在《版权和人工智能 第三部分:生成式人工智能训练》报告中的客观立场

 

值得关注的是,在该两份裁决之前,美国版权局于2025年5月9日发布的《版权和人工智能 第三部分:生成式人工智能训练》报告(本文注:该报告为预报告,美国版权局明确该报告的最终版本将在不久的将来出版、预计不会对分析或结论作出实质改动)采取了客观评析多种观点的态度,即人工智能训练并非绝对的合理使用,一项使用是否符合合理使用的条件取决于背景和程度,需结合美国《版权法》第107条的合理使用四要素进行判断。[11]

 

(二)美国此前有认定非生成式AI使用训练数据不构成合理使用的案例

 

2025年2月11日,美国特拉华州地区法院就westlaw数据库服务商Thomson Reuters起诉ROSS Intelligence使用其westlaw数据库中的案件文件(headnotes)以训练与westlaw具有竞争关系的AI法律研究平台侵害其著作权案件作出简易判决,认定被告的行为不构成合理使用、构成著作权侵权,理由在于其考量了合理使用的四要素后,认为最重要的第一个和第四个因素是更有利于Thomson Reuters的,具体来讲:第一个因素——就使用的目的和性质来看,ROSS Intelligence的使用行为属于商业性使用、且不构成转换性使用,寻求授权未果后的复制行为更是具有恶意;第二个因素——就被使用作品的性质来看,westlaw数据库中案件文件headnotes的创作性程度较低;第三个因素——就被使用作品的数量及其占整体作品的实质性比例来看,ROSS Intelligence最终输出的是司法意见而非headnotes;第四个要素——就对市场(包括潜在的版权市场)的影响来看,ROSS Intelligence旨在替代westlaw市场。[12]

 

2025年5月23日,美国特拉华州地区法院该案法官发布了备忘意见书,意见书阐述了批准ROSS Intelligence于此前提出的关于独创性和合理使用问题的中间上诉请求并裁定中止审理的依据和理由。[13]

 

(三)德国也有认定生成式AI非商业性使用训练数据的行为属于合理使用、不构成著作权侵权的案例

 

2024年9月27日,德国汉堡地区法院就著作权权利人摄影师Robert Kneschke起诉生成式AI数据集创建者LAION(Large-scale Artificial Intelligence Open Network)下载其作品用于创建数据集训练AI模型侵害其著作权案件作出判决,认定被告出于科学研究目的的文本与数据挖掘行为属于合理使用,据此驳回权利人的诉讼请求。[14]

 

(四)还有大量生成式AI使用训练数据的案例正在司法程序中,尽管上述Anthropic 案和Meta案中法院认定生成式AI使用训练数据的行为构成合理使用,但两个案件法官的认定理由不同、均强调裁决结果只适用于个案,且该等裁决目前为基层法院作出,因此相关司法规则仍有待明确。现举部分正在司法程序中的案例如下:

 

2023年1月13日,Sarah Andersen 等艺术家起诉 Stability AI,指控Stability AI未经许可使用其艺术作品来训练文生图平台Stable Diffusion的行为构成侵权,目前仍在诉讼程序中。[15]

 

再如2023年12月27日,《纽约时报》起诉OpenAI和微软公司,指控两公司未经许可使用其数百万篇受版权保护的文章训练ChatGPT等构成侵权,OpenAI公司的抗辩理由之一是合理使用。2025年3月,美国纽约南区法院驳回OpenAI要求直接驳回案件核心指控的动议,允许关键争议进入下一阶段,因此OpenAI使用《纽约时报》新闻内容训练其模型是否构成版权侵权将进入实质司法审查阶段。[16]

 

又如中国知识产权保护网2025年5月7日报道,印度著名多媒体新闻机构亚洲国际新闻(ANI)在德里高等法院对OpenAI提起了版权侵权诉讼,指控OpenAI的大型语言模型ChatGPT一直在从其网站上非法抓取可免费获取且已付费的版权内容。该案是生成式AI在印度首次面临版权侵权指控,多个利益相关方提交了申请,要求对诉讼进行干预,他们主张保护版权作品,并对未经授权的使用主张赔偿。[17]

 

又如2025年6月11日,迪士尼联合环球影业对Midjourney提起诉讼,指控Midjourney未经授权将其受著作权保护的角色形象用于AI训练数据、利用AI生成并传播大量涉及迪士尼和环球经典角色等,严重侵犯其版权。[18]

 

三、我国理论界相关争鸣

 

对于生成式AI服务提供者使用训练数据训练相关模型的行为是否有必要适用合理使用制度、是否构成合理使用,我国理论界目前争议较大。

 

(一)有较为激进的观点认为无需适用合理使用制度,生成式AI使用训练数据的行为不属于对作品的“表达性使用”,未落入著作权法保护范围,不构成侵权

 

如上海政法学院商建刚教授认为,首先需要创新性地将作品的使用方式分为表达性与非表达性使用,非表达性使用侧重对作品的技术性使用、并不直接呈现作品的表达。而生成式AI使用训练数据侧重从海量数据中挖掘出具有普遍性、规律性的模式和信息,这些模式和信息属于思想层面的内容;且数据训练并非为了使用权利人作品的表达、其偶然生成的侵权内容源自大模型技术本身的局限性而非产品设计的目的,数据训练过程也不会将作品的原始表达以供阅读、理解或欣赏的方式呈现给读者等,其举例到Stability AI表示他们在训练ChatGPT时将图像分解为基本结构和图像各部分之间的关系而非利用了图像本身。因此,其认为生成式AI使用训练数据的行为本身属于对作品的非表达性使用、不落入著作权法保护范围,不构成侵权,不存在合理使用的适用空间。[19]

 

(二)有观点认为应适用合理使用制度、同时设置不构成合理使用的负面清单,且结合技术变革的特定背景提出了进一步的“变革性使用”的观点

 

如北京大学易继明教授认为,解决创作者保护作品著作权与生成式AI服务提供者需要便捷、低成本获取使用作品之间的矛盾,需充分考虑创作者和产业界及其他利益相关主体的诉求,在此基础上,其认为解决该矛盾的最佳方案是原则上适用合理使用制度+设置不构成合理使用的负面清单。

 

其中,就合理使用,易教授提出了进一步的“变革性使用”的观点,“变革性使用”超越了传统合理使用中对行为人主观意图的考量、转而关注行为在客观上是否推动了技术的飞跃和社会的进步,即强调的是对技术变革和科技进步有重大突破意义的使用行为;就负面清单,其认为至少可以包括如下情形:其一,恶意绕过技术手段采集数据的行为;其二,使用权利人声明不得用于人工智能训练的作品进行训练的行为;其三,故意进行拟合训练目的在于取代创作者交易市场的行为。[20]

 

(三)也有观点认为生成式AI使用训练数据的行为难以被认定为合理使用

 

如西南政法大学常烨博士认为,生成式AI使用训练数据的行为难以被认定为合理使用,理由在于:其一,此种使用行为不属于个人行为,也不属于学校教学科研,也与评论/介绍和引用无关,更非转换性使用的二次创作,难以归入我国著作权合理使用制度中列举的“特定且特殊情形”;其二,此种使用行为不符合合理使用要求的“不得影响作品正常使用”“不得不合理损害著作权人合法权益”的要件,其举例到在一些特定领域,生成式AI生成内容已经与被用来训练的作品形成了竞争关系,Pixiv等图片平台已经开始接受人工智能供稿;其三,生成式AI未获许可作品“投喂”并不符合适用合理使用的正当性,我国已有部门规章规定了生成式AI服务提供者的训练数据合规性义务,合法合规使用训练数据是其需负担的必要成本。[21]

 

本文认同第二种观点,即应适用合理使用、同时明确规定或在具体司法案例中探索不构成合理使用的行为类型,在促进技术的发展和保护著作权人利益之间尽量寻求平衡,同时也督促生成式AI服务提供者合法合规获取使用训练数据。

 

四、目前我国已有国家标准对不同来源的训练数据的采集作出了明确的规范要求,可供生成式AI服务提供者参考

 

国家市场监督管理总局和国家标准化管理委员会《网络安全技术 生成式人工智能服务安全基本要求》对不同来源数据的采集管理提出了不同要求,具体为:

 

  1. 使用开源训练数据时,应遵循该数据来源的开源许可协议或取得相关授权文件。
     
  2. 使用自采训练数据时,应具有采集记录,不应采集他人已明确不可采集的数据。自采训练数据包括自行生产的数据及自行从互联网采集的数据。对于汇聚了网络地址、数据链接等能够指向或生成其他数据的情况,如需使用这些被指向或生成的内容作为训练数据,将其视同于自采训练数据。明确不可采集的数据包括已通过爬虫协议或其他限制采集的技术手段明确表明不可采集的网页数据或个人已拒绝授权采集的个人信息等。
     
  3. 使用商业训练数据时,应有具备法律效力的交易合同、合作协议等;交易方或合作方不能提供数据来源、质量、安全等方面的承诺以及相关证明材料时,不应使用该等训练数据;使用方应对交易方或合作方所提供的训练数据、承诺以及相关证明材料进行审核。
     
  4. 将使用者输入信息或内容用作训练数据时,应具有使用者授权记录。同时,应为使用者提供关闭其输入信息用于训练的方式(例如为使用者提供选项或语音控制指令),关闭方式应便捷(例如采用选项方式时使用者从服务主界面开始到达该选项所需操作不超过4次点击);应将收集使用者输入信息用于训练的状态及关闭方式显著告知使用者。

 

注释:

[1]《网络安全技术 生成式人工智能服务安全基本要求》(GB/T 45654-2025)第3.4条规定:“训练数据 所有直接作为模型训练输入的数据。注:包括预训练数据和优化训练数据”

[2] 参见:广州互联网法院(2024)粤0192民初113号民事判决书。

[3] 参见:https://mp.weixin.qq.com/s/TCXxVTqC-mL0iptYqzboKw,最后访问日期2025年6月30日。

[4] 参见:https://weibo.com/u/3524085114,最后访问日期2025年6月30日。

[5] 参见:https://mp.weixin.qq.com/s/yHd9JRg0tZ4VEbYv7vQqXg,最后访问日期2025年6月30日。

[6] 参见:杭州市中级人民法院(2024)浙01民终10332号民事判决书、杭州互联网法院(2024)浙0192民初1587号民事判决书,该案为浙江省高级人民法院2024年知识产权保护典型案例之一、杭州市中级人民法院2024年度知识产权司法保护暨服务保障新质生产力发展典型案例之二。

[7] 参见:杭州市中级人民法院(2024)浙01民终10332号民事判决书、杭州互联网法院(2024)浙0192民初1587号民事判决书,该案为浙江省高级人民法院2024年知识产权保护典型案例之一、杭州市中级人民法院2024年度知识产权司法保护暨服务保障新质生产力发展典型案例之二。

[8] 参见:https://bjzcfy.bjcourt.gov.cn/article/detail/2025/03/id/8765055.shtml,最后访问日期2025年6月30日。

[9] 参见:https://www.govinfo.gov/content/pkg/USCOURTS-cand-3_24-cv-05417/pdf/USCOURTS-cand-3_24-cv-05417-0.pdf,最后访问日期2025年7月9日。

[10] 参见:https://www.govinfo.gov/content/pkg/USCOURTS-cand-3_23-cv-03417/pdf/USCOURTS-cand-3_23-cv-03417-37.pdf,最后访问日期2025年7月9日。

[11] 参见:https://mp.weixin.qq.com/s/vziEb9vAGS21e6Y9FElZwg,最后访问日期2025年6月30日。

[12] 参见:https://www.govinfo.gov/content/pkg/USCOURTS-ded-1_20-cv-00613/pdf/USCOURTS-ded-1_20-cv-00613-5.pdf,最后访问日期2025年6月30日。

[13] 参见:https://www.govinfo.gov/content/pkg/USCOURTS-ded-1_20-cv-00613/pdf/USCOURTS-ded-1_20-cv-00613-6.pdf,最后访问日期2025年6月30日。

[14] 转引自AI与网络法团队:《首例!版权所有者起诉AI数据集创建者版权侵权案件(附中译版判决书)》,https://mp.weixin.qq.com/s/1eQuDxvbFD0lsLvTZF5Feg?scene=21&from=industrynews&color_scheme=light#wechat_redirect,最后访问日期2025年6月30日。

[15] 参见:https://www.govinfo.gov/app/details/USCOURTS-cand-3_23-cv-00201/context,最后访问日期2025年6月30日。

[16] 转引自AI与网络法团队:《中译版 |<纽约时报>诉OpenAI版权案关键裁决出炉》,https://mp.weixin.qq.com/s/dTlglMA2WQtwBn_K_iMQYA,最后访问日期2025年6月30日。

[17] 参见:http://ipr.mofcom.gov.cn/article/gjxw/gbhj/yzqt/yd/202504/1991474.html,最后访问日期2025年6月30日。

[18] 转引自AI与网络法团队:《中文翻译首发 | Midjourney侵权风波再起,迪士尼联合环球影业诉至法院》,https://mp.weixin.qq.com/s/GL7Zie5QvbBgtz4BLswriw,最后访问日期2025年6月30日。

[19] 参见商建刚:《数据训练的著作权法分析》,https://mp.weixin.qq.com/s/4JahmDkKmu5ybJOYIvXO2Q?poc_token=HF1xUmijek_cYUZWPC0hX0mI32X6vlhVr7w1bXf0,最后访问日期2025年6月30日。

[20] 参见易继明:《大模型语料训练合理使用问题研究》,https://mp.weixin.qq.com/s/YbzyHOR46Cbg4qfEG6h3yA,最后访问日期2025年6月30日。

[21] 参见常烨:《生成式人工智能数据“投喂”的著作权侵权行为规制》,https://mp.weixin.qq.com/s/wSSmawwNpaBd-_2bPOZP6g,最后访问日期2025年6月30日。