• 咨询电话

    • 400-062-9707
    • 服务时间

    • 周一至周五 9:00-18:00
    • 请扫描二维码加微信咨询

案例 | 北京知识产权法院:数据知识产权如何保护

CONSTITUTION

案号:

一审案号:(2021)京0491民初45708号

二审案号:(2024)京73民终546号
在北京知识产权法院审理的数据堂公司诉某木公司数据知识产权侵权纠纷中,法院认为:民法典第一百二十七条的规定属引致规范和宣示条款,尚未将“数据”作为一种类型化的民事权利(即绝对财产权)而规定其权利内容,在缺乏法律明确赋权的情况下,数据堂公司无权依据民法典第一百二十七条之规定要求将涉案数据集类推绝对财产权请求保护。但是,某木公司在未经数据堂公司许可的情况下实施被诉行为,违背了数据服务领域的商业道德,损害了数据堂公司的合法权益及消费者利益,扰乱了数据服务市场竞争秩序,构成反不正当竞争法第二条规定的不正当竞争行为。
 
 

一审诉讼请求:

 
 

1.判令某木公司立即停止侵害数据堂公司合法权益行为,删除涉案数据集;

2.判令某木公司在国家级报刊及某木公司网站上赔礼道歉;

3.判令某木公司赔偿数据堂公司经济损失722400元;

4.判令某木公司赔偿数据堂公司公证费2300元。

一审查明事实:

 
 

数据堂公司网站(https://www.datatang.com/opensource)发布"AI数据开源计划1505小时中文普通话语音数据”,其中活动说明包括“开源计划面向高校和学术机构等非商业组织的群体提供开源数据”“开源数据及其衍生产品(包括但不限定于衍生数据和模型)未经允许禁止任何形式的商业用途”“公开发表展示利用数据堂开源数据的全部或者部分获得的科研成果时,必须在所获科研成果中注明使用"数据堂AI数据集”或DatatangAIDataset',并且同时注明出处”等内容。该数据介绍内容为“【1505小时中文普通话语音数据集】数据时长1505小时,是数据堂中文普通话语音数据库中的一部分。采集区域覆盖全国34个省级行政区域,参与录音人数达6408人,录音内容超30万条口语化句子,经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句标注准确率的最高标准。涉案数据集截图显示每个录音文件中均包括“metadata”“txt”“wav”三种格式数据。数据堂公司提交了6283份授权文件。上述授权文件相关条款内容包括:《告知及授权书》中载明"1.【采集内容】【信息用途】【权利归属】【信息使用】【授权使用】。另,京知数登字第2023000007《数据知识产权登记证》载明,数据名称为普通话手机采集语音数据库,登记主体为数据堂公司数据登记编号为BJSZD202300000008,登记有效期至2026年7月6日。该数据在北京市方圆公证处有电子证据存证,名称为“1505小时普通话手机采集语音数据”。侵权人侵权事实:某木公司非法获取涉案200小时数据集(即涉案1505数据集的子集)并在其官方网站向公众传播,并以提供下载服务为方式诱导用户注册会员。

一审法院裁判要点

 
 

一审法院认为:涉案1505小时数据集中仅“metadata”文件会显示被采集人的出生地省市、性别、年龄岁数、手机品牌、系统硬件信息,上述信息不含有姓名,不能与其他信息结合识别特定自然人,故不属于个人信息范畴。从现有证据看,涉案1505小时数据集中的"wav”录音文件声音均来自普通人的口语化表达。且均为短句。与“metadata”文件中的信息结合,一般亦无法识别特定自然人。数据堂公司提交的四批次授权文件可以证明其在涉案1505小时数据集收集过程中已取得被采集者的书面同意及授权。因此,数据图公司已对涉案1505小时数据进行了去标识化处理,在无相反证据的情况下,可以认定数据堂公司收集语音数据的行为符合法律规定。同时,数据堂公司在录制过程中投入了相应的人力、财力成本。因此有权基于自己的投入获取相应的经营性收益。

数据堂公司在基础语音文件(wav音频文件、metadata文件、txt文本文件)上进行编排,但每个单元文件夹中的结构、分布方式、整体布局均为相同。其数据集内容及布局编排较为简单。在展示方式及布局编排等方面尚不能体现出独特构思,故涉案1505小时数据集在内容的选择和编排上不具有独创性,不构成《中华人民共和国著作权法》(简称著作权法)保护的汇编作品。

关于商业秘密。首先,涉案1505小时数据集系数据堂公司根据发言人年龄、性别、生活省市及wav录音文件等属性制作的标签文件,并以数据形式存储,本身不属于某一领域的一般常识或行业惯例,任何人无法通过观察等方式直接获取涉案1505小时数据集。虽然数据堂公司就涉案1505小时数据集的开源计划进行了宣传。但未曾将涉案1505小时数据集予以公开。某木公司现有证据无法证明,在其实施被诉侵权行为时。涉案1505小时数据集已经为公众所知悉,因此可以认定涉案1505小时数据集在被诉行为发生时不为公众所知悉。其次,数据堂公司与员工在签订劳动合同时,单独签署《保密协议书》,约定数据秘密、数据使用及员工调离等方面的保密义务。在其制定的《信息安全保密制度》《办公电脑与网络使用制度》中,对履行商业秘密义务、保护商业秘密作了具体规定。此外,数据堂公司还通过windows域控管理技术对涉案数据集存储服务器进行管控,控制服务器访问、读取、写入和复制等权限,实现了与一般办公网络的隔离。其在与第三方授权许可涉案1505小时数据集时,均与对方签署书面保密协议、约定违约责任。再次,涉案1505小时数据集相较于单一语音或零散原始数据,具有数据规模大、内容全面、投资巨大、商业价值高的特点,数据堂公司对于数据集合的收集、储存、整理、加工进行了实质性的投资,对该数据录音文件进行了分类处理,通过算法可以提取同属性录音数据的共性与差异,生成准确度高、具属有应用价值的算法模型,数据堂公司提交许可协议显示,涉案1505小时数据集合可用于人工智能算法训练,并通过许可获取收益,足以证明涉案1505小时数据集具有现实商业价值。因此,数据堂公司主张的涉案1505小时数据集是不为相关人员普遍知悉和容易获得的,并已采取了合理保密措施的商业秘密,可适用商业秘密相关法律规定予以保护。数据堂公司提交的《数据知识产权登记证》能够证明涉案1505小时数据集系由数据堂公司收集且持有可以认定数据堂公司是上述商业秘密的权利主体。

二审法院裁判要点

 
 

一、关于数据堂公司是否有权基于民法典第一百二十七条之规定主张数据财产权益

民法典第一百二十七条规定,法律对数据、网络虚拟财产的保护有规定的,依照其规定。《中华人民共和国数据安全法》(简称数据安全法)第七条规定,国家保护个人、组织与数据有关的权益,鼓励数据依法合理有效利用,保障数据依法有序自由流动,促进以数据为关键要素的数字经济发展。同时,技术变革不断催生新的财产形式,传感器、智能设备制造的进步,使得企业可以收集、存储海量数据;大数据算法、机器学习等技术进步使得人类可以在短时间内获取、分析大量非结构化数据。这使得数据集合产生了独立的利用和交易价值,已成为重要的财产权益。本案中,涉案数据集通过对原始数据的提炼整合,将原本单一且价值有限的碎片化数据信息通过算法分析处理,可以提升数据的使用价值,具有数据财产权益。从现行法律规定和现实利益两个层面,均可得出涉案数据集具有财产性利益需法律保护的结论。

对数据财产权益的法律保护,应回归现行法律规定。民法典明确了民事主体可享有的财产权益类型,财产不仅包括传统上的物权、债权、知识产权、股权及其他投资性权利,而且包括具有一定经济价值的权利和利益,如数据、网络虚拟财产等。现行法律的财产权益类型可分为以物权、知识产权为代表的绝对财产权、以债权为代表的相对财产权和以有一定影响的商品名称、包装装潢等为代表的其他财产性法益。权利(益)人可以依据相关法律规范直接主张对侵害其绝对财产权的行为提起诉讼,亦可对违反合同约定的行为主张违约责任,还可对损害其财产性法益的行为提起反不正当竞争之诉。在财产性法益未被法律确认为绝对财产权之前,财产性法益的权益人不得类推适用其他绝对财产权类型寻求司法保护,此为“财产权法定原则”的应有之意。民法典第一百二十七条的规定属引致规范和宣示条款,尚未将“数据”作为一种类型化的民事权利(即绝对财产权)而规定其权利内容,在缺乏法律明确赋权的情况下,数据堂公司无权依据民法典第一百二十七条之规定要求将涉案数据集类推绝对财产权请求保护。 综上,数据堂公司主张涉案数据集具有法律保护的合法权益正确,但无权依据民法典第一百二十七条之规定类推适用著作权法主张相关权项。

 

二、关于涉案数据集是否构成汇编作品

根据著作权法第十五条的规定,汇编若干作品、作品的片段或者不构成作品的数据或者其他材料,对其内容的选择或者编排体现独创性的作品,为汇编作品。涉案数据集是在基础语音文件(wav音频文件、metadata文件、txt文本文件)上进行编排而成,但每个单元文件夹中的结构、分布方式、整体布局均相同,其数据集在展示方式及布局编排等方面尚不能体现出独特构思,故涉案数据集在内容的选择和编排上不具有独创性,不构成著作权法保护的汇编作品。一审法院对此认定正确,依法予以支持。

 

三、关于涉案数据集是否构成商业秘密

2019年反不正当竞争法第九条第四款规定,本法所称的商业秘密,是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息。商业秘密司法解释第三条规定,权利人请求保护的信息在被诉侵权行为发生时不为所属领域的相关人员普遍知悉和容易获得的,人民法院应当认定为反不正当竞争法第九条第四款所称的不为公众所知悉;该司法解释第四条第一款第三项、第四项规定,如果该信息已经在公开出版物或者其他媒体上公开披露的或属领域的相关人员从其他公开渠道可以获得该信息的,有关信息为公众所知悉。上述司法解释第三条、第四条对反不正当竞争法第九条规定的商业秘密构成要件之一“不为公众所知悉”作出规定,“不为公众所知悉”是指有关信息不为其所属领域的相关人员普遍知悉和容易获得,判断主体是所属领域的相关人员,判断的标准是既不能“普遍知悉”,也不能“容易获得”,认定的时间点是“被诉侵权行为发生时”。因此,一旦信息可以通过公共来源容易获得,它就失去了作为商业秘密受到保护的资格。进言之,当商业秘密权利人在网络等其他公共空间公布该信息时,只要所属领域相关人员可以直接获取,该信息就失去了秘密性,不会被认定为商业秘密。本案中,数据堂公司于2019年7月2日已经在其官方网站面向不特定公众公开披露了涉案200小时数据集的下载渠道和训练方法,即被诉行为发生时(2021年9月15日),涉案200小时数据集已经因数据堂公司的主动公开而丧失秘密性。鉴于被诉行为仅涉及涉案200小时数据集,且该数据集因缺乏秘密性而不构成2019年反不正当竞争法第九条规定的商业秘密,故一审法院有关某木公司侵犯数据堂公司商业秘密的认定是错误的,依法应予纠正。

 

四、关于被诉行为是否违反2019年反不正当竞争法第二条之规定

2019年反不正当竞争法第二条规定,经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德。本法所称的不正当竞争行为,是指经营者在生产经营活动中,违反本法规定,扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为。反不正当竞争法司法解释第一条规定,经营者扰乱市场竞争秩序,损害其他经营者或者消费者合法权益,且属于违反反不正当竞争法第二章及专利法、商标法、著作权法等规定之外情形的,人民法院可以适用反不正当竞争法第二条予以认定。根据上述规定,能够纳入2019年反不正当竞争法第二条规制的不正当竞争行为应包括以下要件:一是原被告具有竞争关系;二是原告享有应受反不正当竞争法保护的合法权益;三是被诉行为违反法律和公认的商业道德;四是被诉行为扰乱市场竞争秩序,损害其他经营者或者消费者合法权益;五是被诉行为属于违反2019年反不正当竞争法第二章及专利法、商标法、著作权法等规定之外的情形。本案中,数据堂公司和某木公司同属数据服务领域的经营者,具有竞争关系,且如前所述,被诉行为不属于知识产权专门法和反不正当竞争法第二章规定的情形。在此前提下,针对其他要件分析如下:

 

首先,关于数据堂公司是否享有应受反不正当竞争法保护的合法权益。2019年反不正当竞争法第二条所保护的利益,一般可包括竞争优势、交易机会。判断经营者告是否享有2019年反不正当竞争法第二条所保护的竞争利益,不应抛开被诉行为而泛谈经营者所具有的竞争优势或交易机会,应结合被诉行为对于竞争秩序等的损害来判断。具体而言,可综合经营者实质性投入情况、竞争优势地位、交易机会及由此产生直接经济利益、未来机会利益等因素进行判断。同时,该竞争利益本身不得违反法律的相关规定。涉案200小时数据集是涉案1505小时数据集的子集,数据堂公司就涉案数据集取得的《数据知识产权登记证》,可作为证明数据堂公司享有涉案数据集相关财产性利益的初步证据,加之在案证据证明涉案数据集是数据堂公司投入大量人力、物力、技术等经营资源收集并整理,含有大量可用于人工智能模型训练的声音数据条目,满足了人工智能模型研发主体对声音数据的相关需求,能够为其带来交易机会与竞争优势。基于反不正当竞争法第二条的补充性原则,针对数据集合的保护,如处于公开状态,并对数据内容的选择和编排具有独创性贡献时,优先通过汇编作品保护。反之,如数据集合不为相关领域人员所容易获取,则可适用商业秘密保护。如数据集合处于公开状态且数据内容的选择或编排不具有独创性的,因缺乏知识产权专有权和商业秘密保护的基础,故可视情况通过反不正当竞争法第二条进行规制。涉案200小时数据集是数据堂公司付出实质性投入收集且具有一定经济价值,该数据集如因被公开而不能得到法律的保护,则竞争对手可以轻松获取和复制数据。这将导致两方面结果,其一,对必须公开才能利用的数据集合,将抑制像数据堂公司这类企业在该领域的投资积极性;其二,对可以某匿加以利用的数据集合,数据堂公司等数据服务企业倾向于对数据保密并避免交易,影响数据的流通和利用。综上,虽然涉案200小时数据集已被数据堂公司主动公开,但并不当然据此丧失其应受2019年反不正当竞争法第二条保护的可能性。判断公开的数据是否可以纳入2019年反不正当竞争法的保护,还需结合被诉行为是否借用或寄生于该公开数据而不当获得了本不应由某木公司获得的交易机会、竞争优势,进而获得商业利益。本案中,虽然数据堂公司通过开源的方式将涉案200小时数据集主动公开,供使用者和其他经营者免费下载,并在遵循涉案CC开源协议规则的情况下使用,但是数据堂公司仍可对违反涉案CC开源协议规则的行为寻求2019年反不正当竞争法第二条规制。对于某木公司有关涉案数据集已经被公开不应予以保护的上诉理由,不予支持。数据集合保护本质上是对不具有独创性的数据或事实的集合提供保护,如果保护数据数量的门槛过低,会妨碍公众利用公共领域数据信息创作普通作品,为避免对普通公众的创作和表达自由产生负面影响,且数据规模的扩大增加了数据集合的价值,也增加了社会容忍法律制度负面影响的意愿,因而获得保护的数据集合应当具有实质量的数据条目。同时,数据条目的实质数量应结合数据集合的性质、数据来源、数据集合价值等因素综合判断。本案中,在案证据已经证明,涉案200小时数据集是数据堂公司主动收集并整理,含有70余万条可用于人工智能模型训练的声音数据条目,且被众多人工智能模型研发主体所使用,符合公开数据条目应具有实质量的要求。故,某木公司提出的公开数据集合应当具有实质量时才可受到反不正当竞争法保护的意见是正确的,但涉案200小时数据集已经符合实质量的要求,某木公司有关涉案数据集音频数量过少不应得到保护上诉理由依据不足,不能成立。数据堂公司采集录音的时间早于个人信息保护法施行日,故关于数据堂公司收集个人信息的行为是否合法的问题,应当适用个人信息保护法施行前的《中华人民共和国民法总则》(简称民法总则)、《中华人民共和国网络安全法》(简称网络安全法)等相关法律规定。民法总则第一百一十一条规定,自然人的个人信息受法律保护。任何组织或者个人需要获取他人个人信息的,应当依法取得并确保信息安全,不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。网络安全法第七十六条规定,个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。涉案数据集的文件信息中不含有被收集人的姓名,录音文件中的声音系被收集人的口语化表达、且均为短句,与涉案数据集的其他信息结合,一般亦无法识别特定自然人。同时,某木公司亦未提交充分证据证明数据堂公司收集的涉案数据集合具有危害个人信息安全的风险。数据堂公司提交的四批次授权文件可以证明其在涉案数据集收集过程中已取得被收集人的书面同意及授权,被采集人朗读给定内容并录制的行为亦可推定被采集人同意数据堂公司收集其声音。此外,涉案《数据知识产权登记证》可作为涉案数据集收集行为合法的初步证据,在无相反证据的情况下,可以据此认定涉案200小时数据集收集行为未违反相关法律的规定。综上,某木公司的相关上诉主张,缺乏事实和法律依据,本院不予支持。综上所述,涉案200小时数据集虽然因处于公开状态不符合商业秘密的构成要件,同时因数据内容的选择、编排上不具有独创性而不构成作品,但由于数据堂公司对此付出了技术、资金、人力、物力等的实质性投入合法收集形成了具有实质量的声音数据条目,在原始数据上添附了更多的商业价值,能够满足人工智能模型研发主体对声音数据的需求,可为数据堂公司吸引流量、带来交易机会与竞争优势等商业利益。该种商业利益本质上是一种竞争性权益,应属反不正当竞争法所保护的合法权益。

其次,关于被诉行为是否违反了诚信原则和商业道德。如前所述,民法典、数据安全法均已明确数据集合持有者对数据集合享有财产权益,数据集合持有者可通过合同限定接触者的使用行为予以相对财产权保护,在符合条件的情况下还可寻求知识产权法的绝对财产权和其他财产法益保护。但无论采取何种法律保护方式,在未获得数据集合持有者的许可前,任何人均不得公开传播其付出实质性投入合法收集整理的数据集合。在案《数据使用许可协议》及国内主流数据服务商拟定的数据许可协议,各地出台的涉数据地方性法规,以及当事人提交的在先生效判决等证据亦可予以佐证。在数据行业中,除数据集合持有者单独许可他人利用其数据集合这一许可方式外,基于便利数据资源流通利用、优化数据集等原因,国家科研机构、企业及个人广泛使用开源协议作为数据许可协议,数据需求方获取、使用开源数据应当遵守开源协议已成为行业共识,涉案众多数据服务平台采用知识共享协议的事实可以证明此点。因此,当数据集合持有者对数据集合开源时,数据需求方的获取、使用行为是否遵循开源协议是衡量该行为是否违反数据服务领域商业道德的重要考量因素。本案中,被诉行为违反了涉案CC开源协议的非商业目的使用规则。该协议规定的“非商业性目的使用”是指该使用的主要意图或者指向并非获取商业优势或金钱报酬。具体而言,某木公司与数据堂公司均从事向公众提供数据集业务,存在此消彼长的竞争关系。数据集的种类丰富度、数据量、网站点击量以及注册用户数量是评估某木公司经营的数据共享平台网站价值的重要标准之一。某木公司在其官网展示涉案200小时数据集,客观上丰富了其平台数据储备并为平台吸引流量、扩大影响。在某木公司官网下载涉案200小时数据集前,必须要先注册成为其网站的用户。某木公司的被诉行为会将具有相关数据需求的网络公众变成其具有黏性的网站用户。某木公司的被诉行为违反了涉案开源协议的非商业目的使用规则。另,若某木公司对其使用方式是否属于非商业性使用存在疑义,根据涉案CC开源协议的常见问题答复中的释明,某木公司亦应当联系数据堂公司确认,而非径行使用。此外,某木公司未自行进行资源积累、亦未支付对价或获得许可的“不劳而获”行为,实为利用共享数据之名,行不正当竞争之实,有违相关行业的诚信原则和商业道德。某木公司有关其行为符合商业惯例等上诉理由,缺乏事实和法律依据,不能成立。某木公司虽提出其系依据网络安全法第二十四条规定要求用户进行注册,但某木公司经营的“XX钛”数据共享平台不涉及“网络运营者为用户办理网络接入、域名注册服务,办理固定电话、移动电话等入网手续,或者为用户提供信息发布、即时通讯等服务”,且数据下载行为也不属于上述行为,故要求用户注册并非履行法律义务,而是为了增加网站用户注册数量和增加用户黏性,获取商业优势。对于某木公司的该项上诉,亦不予支持。

 

再次,关于被诉行为是否损害了数据堂公司的合法权益、市场竞争秩序及消费者利益。随着生成式人工智能技术的发展,数据服务行业处于快速发展的关键阶段,在用户注意力和流量争夺方面较之其他类型平台更加激烈。数据堂公司作为专业从事人工智能领域数据服务的企业,依托其质量高、数量大、可用于研发语音识别等人工智能技术的涉案数据集,获得了用户的关注,并通过其官网开展数据交易,这为数据堂公司直接带来了竞争优势和经济利益。某木公司实施的被诉行为,使涉案200小时数据集在具有竞争关系的数据共享平台公开传播,一定程度上截取了本属于数据堂公司的用户流量,损害了数据堂公司所享有的合法权益。同时,由于某木公司提供了涉案200小时数据集的下载服务,数据堂公司无法通过涉案200小时数据集的开源行为获得对数据集合的进一步改进建议,故被诉行为亦影响了数据堂公司的数据服务研发能力。综上,被诉行为损害了数据堂公司的合法权益。市场竞争秩序是否被扰乱取决于市场竞争的各要素结构和运行机制是否被干扰。影响竞争的市场运行机制主要包括准入机制、供求机制、价格机制、信息机制、信用机制和创新机制。进言之,如果被诉行为直接影响到上述六种机制作用的正常发挥,则可认定干扰了市场竞争秩序。被诉行为直接影响的是数据服务领域的创新机制。如果允许被诉行为在市场竞争中普遍存在,无疑将导致与数据堂公司情况相近的数据服务经营者无法从市场竞争中获得相应的回报和有效的激励,必然打击数据服务经营者投资收集、加工制作新数据集的积极性,与此同时,却会间接鼓励其他经营者对前者形成的竞争资源径行利用、坐享其成。长此以往,将严重扰乱竞争秩序,降低数据交易市场的丰富程度,损害数据要素市场发展,导致符合社会需求的数据产品和服务供应不足,最终阻碍社会总体福利的提升,损害消费者的长远利益。

 

综上,某木公司在未经数据堂公司许可的情况下实施被诉行为,违背了数据服务领域的商业道德,损害了数据堂公司的合法权益及消费者利益,扰乱了数据服务市场竞争秩序,构成了2019年反不正当竞争法第二条规定的不正当竞争行为。

 

 

首页    新闻资讯    案例 | 北京知识产权法院:数据知识产权如何保护