知恒资讯

法律咨询热线:0755-8889-0066

精彩案例 | 从微博不正当竞争案看数据抓取行为的司法认定规则
发布日期:2023-10-11 浏览1010次

作者 | 知识产权中心 王琼花律师


案情概要

湖南某软件股份有限公司(下称“某软件公司”)与北京微梦创科网络技术有限公司(下称“微梦创科公司”)不正当竞争纠纷案【案号:(2019)京73民终3789号】,微梦创科公司系新浪微博的运营方,既是为网络用户提供基于用户关系的社交媒体平台,也是向第三方应用软件提供接口的开放平台。某软件公司通过运营的网页版鹰击系统和安卓手机端鹰击应用为其用户提供微博数据服务,具体包括获取、存储、展示和分析微博平台数据,并形成数据分析报告。微梦创科公司认为,某软件公司通过非法手段擅自获取、存储、展示和使用微博平台数据的行为构成不正当竞争,故诉至法院,要求某软件公司立即停止涉案不正当竞争行为。某软件公司辩称,鹰击系统系工具而未主动抓取微博平台数据,所抓取的数据系微博平台前端数据,且系通过网络爬虫技术实现抓取而未破坏微博平台技术保护措施等。

法院经审理认为,微博平台数据可以分为公开和非公开数据,对于公开数据,可以通过网络爬虫等自动化程序获取并进行二次利用,对于非公开数据,只有在采取合法正当手段的情况下方可获取。本案中,在双方当事人不存在合作关系,且不能证明采用的技术手段具备合法正当性的情况下,能够合理推定某软件公司利用了技术手段破坏或绕开了微梦创科公司所设定的访问权限,从而获取微博平台非公开数据。某软件公司获取、存储、展示和使用微博平台数据的行为,干扰了微博平台的正常运行,给微梦创科公司增加了经营成本,并影响微梦创科公司对外授权并获得相关收益,构成《反不正当竞争法》第十二条规定的不正当竞争行为。据此,法院判决上诉人承担停止不正当竞争行为。

互联网行业的竞争是数据的竞争,利用网络爬虫采集公开信息是企业数据的重要来源。相关数据显示,50%以上的互联网流量其实都是爬虫贡献的;对于某些热门网页,爬虫的访问量甚至占据了总访问量的90%以上1。爬虫技术能够实现高效的数据汇集与收取,虽然网络爬虫已广泛应用,但绝不能无限制使用,在以数据为核心竞争资源的互联网时代,海量数据意味着竞争优势,于是大量的反爬虫技术和措施开始被应用,最常见的反爬虫手段之一是robots协议。

本文以上述案件作为出发点,结合实务中该类案件其他判例,归纳梳理数据抓取行为的司法认定规则。


一、认识Robots协议


数据的“抓取”主要通过网络爬虫技术实现,也就是爬虫抓取,简称“爬取”。爬虫技术的应用性极强,能够打破信息交流壁垒,为用户提供海量的目标信息资源。例如,搜索引擎获取信息的关键性技术之一就是网络爬虫。2

为了规范网络爬虫行为,荷兰软件工程师马蒂恩·科斯特(Martijn Koster)于1994年2月起草了网络爬虫的规范——Robots协议。Robots协议全称网络爬虫排除标准(Robots Exclusion Protocol),又称爬虫协议、机器人协议,实质上是为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。3我国《互联网搜索引擎服务自律公约》4第七条第二款规定,机器人协议(robots协议)是指互联网站所有者使用robots.txt文件,向网络机器人5(Web robots)给出网站指令的协议。


二、Robots协议的法律界定


Robots协议即网站所有者在网站根目录下设置的robots.txt文件,目的在于告诉网络爬虫哪些页面可以抓取哪些页面不能抓取。Robots协议是一个未经标准组织备案的非官方标准,虽然名为“协议”,但并非真正意义上的协议,不受任何官方机构保护,不具有强制性,相当于一个“君子约定”。但Robots协议并非不受法律保护,因为Robots协议是国际互联网界通行和公认的道德规范。6

在我国,互联网协会发布的《互联网搜索引擎服务自律公约》将Robots协议被界定为“国际通行的行业惯例与商业规则”。而作为同行业之间的约定,《互联网搜索引擎服务自律公约》已经成为行业规范被纳入法官的视野,在与Robots协议有关的纠纷中成为判定是否构成侵权或者不正当竞争的依据。我国《反不正当竞争法》第二条第二款规定:“经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德。”《北京市高级人民法院关于涉及网络知识产权案件的审理指南》第三十四条也有相应的规定:“对公认的商业道德进行认定时,可以综合参考下列内容:(2)行业协会或者自律组织根据行业特点、竞争需求所制定的从业规范或者自律公约。”

故,违反robots协议行为可能被认定为不正当竞争行为,将受到我国《反不正当竞争法》的规制。需要说明的是,并非所有违反robots协议的行为均可被认定为是不正当竞争行为,如联合抵制、区别对待等垄断行为等。 


三、爬取数据行为的不正当性司法判定规则


《反不正当竞争法》第十二条规定,经营者利用网络从事生产经营活动,应当遵守本法的各项规定。经营者不得利用技术手段,通过影响用户选择或者其他方式,实施妨碍、破坏其他经营者合法提供的网络产品或服务正常运行的行为。数据抓取行为并不天然具有违法性,对其合法与否的价值评价通常来源于该行为所触及权益的保护或损害。被抓取数据的公开性、原始性、授权情况、来源合法性等是在进行行为正当性评价时常产生争议的因素。

1. 利用技术手段破坏或绕开访问权限爬取非公开数据具有不正当性。

从平衡经营者利益与公共利益的角度出发,互联网数据分为“公开数据”和“非公开数据”。未设定访问权限的数据,一般属于向公众公开的数据;通过登录规则或其他措施设置了访问权限的数据,则应属于非公开数据。当获取“非公开数据”时,只能利用技术手段破坏或者绕开访问权限,而此种行为显然具有不正当性。而判断抓取“公开数据”的行为是否具有正当性,关键是要看其抓取数据的手段是否合法正当。是否为公开数据在一定程度上直接决定了抓取行为的正当与否。非公开信息数据通常涉及个人隐私、商业机密、国家安全机密等,其“非公开”的本质意味着数据持有者对该数据的“不开放”态度,非经数据持有者同意或授权的抓取行为具有当然的不正当性。7例如,在本案中,法院认为在对被诉行为性质进行判断之前,有必要对微博平台数据的类型进行一定区分和界定。虽双方均使用“前端数据”和“后端数据”之概念区分微博平台数据,但基于双方对该两类数据的理解和定义存在较大差异,且从技术角度看,使用前述概念区分微博平台数据或可能存在范围重叠之情形,或可能出现分类不严谨之问题。本院认为,从规范层面看,将微博平台数据做公开和非公开数据之区分更能体现法律意义。对于某技术公司未设定访问权限的数据,应属某技术公司已经在微博平台中向公众公开的数据;对于某技术公司通过登录规则或其他措施设置了访问权限的数据,则应属微博平台中的非公开数据。某软件公司擅自抓取的行为是否构成不正当竞争,关键在于判断其所抓取的数据是微博平台公开数据或非公开数据。

法院认定某软件公司在未经允许的情况下抓取的微博平台数据包括某技术公司已设置了访问权限的非公开数据,显然只能利用技术手段破坏或绕开某技术公司所设定的访问权限,而此种行为显然具有不当性。8

2. 爬取公开数据并非一定具有正当性。

对于公开数据,某技术公司并不会阻止用户浏览、接收甚至采取合法正当的途径进行二次利用。网络爬虫等技术手段虽系自动抓取网络数据的程序或脚本,但如其遵守通用的技术规则,亦无需访问权限即可访问公开数据。因此,无论是通过用户浏览或网络爬虫获取前述微博平台的公开数据其行为本质均相同,某技术公司在无合理理由的情形下,不应对通过用户浏览和网络爬虫等自动化程序获取数据的行为进行区别性对待。但本文认为,不能一刀切认为公开数据可被任意获取。例如,在新浪诉超级星饭团一案中【(2017)京0108民初24512号】,北京市海淀区人民法院认为,如果他人抓取网络平台中的公开数据之行为手段并非正当,则其抓取行为本身及后续使用行为亦难谓正当;如果他人抓取网络平台中的公开数据之行为手段系正当,则需要结合涉案数据数量是否足够多、规模是否足够大进而具有数据价值,以及被控侵权人后续使用行为是否造成对被抓取数据的平台的实质性替代等其他因素,对抓取公开数据的行为正当性做进一步判断。

3. 破解加密算法的爬取行为具有不正当性。

在“酷米客”和“车来了”不正当竞争纠纷一案【(2017)粤03民初822号】中,被告承认通过破解加密算法抓取原告涉案数据,深圳市中级人民法院认为,获取数据的方式须以不违背该软件著作权人意志的合法方式获取,即应当通过下载“酷米客”手机APP或者登录谷米公司网站等方式来查询,而非未经许可,利用网络爬虫技术进入谷米公司的服务器后台的方式非法获取,故被告以原告谷米公司的数据可自由访问来证明其获取方式合法性的主张不能成立。9可见,行为人通过破解加密算法的数据爬取行为具有不正当性。

4. 未经授权的爬取行为具有不正当性。

一方面,“授权”包括签订数据获取协议等明示授权,还包括默示授权。例如,数据抓取者在写有Robots协议的网站爬取数据的过程中没有收到禁止访问提示,则视为获得了抓取授权。另一方面,“授权”不仅包括数据平台授权,还包括用户授权,尤其是在爬取涉及用户个人信息的数据时,是否获得用户授权是抓取行为正当性评价的重要依据之一10。在新浪诉脉脉案中,脉脉在没有获得微博平台授权、也未经脉脉未注册用户许可的情况下抓取新浪微博用户的职业信息、教育信息。法院最终判定抓取非脉脉用户信息的行为具有不正当性,同时确立了针对公开用户数据的抓取需依照“用户授权+平台授权+用户授权”的三重授权原则。三重授权原则实质是对现行法的基本原则“非经同意不得使用”的解读,即如《网络安全法》第四十一条所规定的:网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。网络运营者不得收集与其提供的服务无关的个人信息,不得违反法律、行政法规的规定和双方的约定收集、使用个人信息,并应当依照法律、行政法规的规定和与用户的约定,处理其保存的个人信息。



1 张莉:《数据治理与数据安全》,人民邮电出版社,2019年版,第4.4章。

2 李慧敏,孙佳亮:论爬虫抓取数据行为的法律边界,《电子知识产权》,2018年第12期。

3 张莉:《数据治理与数据安全》,人民邮电出版社,2019版,第4.4章。

4 中国互联网协会发布,效力级别为行业规定。

5 网络机器人也叫网络游客、爬虫程序、蜘蛛程序,是自动爬行网络的程序。

6 刘继峰、王俊林:《竞争法:规则与案例》第一辑,法律出版社,2016版,第一章。 

7 刘继峰,张 雅:《反不正当竞争法视角下数据抓取行为违法性的认定》《西北工业大学学报(社会科学版)》,2021年第4期。

8 (2019)京73民终3789号民事判决书。

9 (2017)粤03民初822号民事判决书。

10 刘继峰,张 雅:《反不正当竞争法视角下数据抓取行为违法性的认定》《西北工业大学学报(社会科学版)》,2021年第4期。


作者简介



a3117a4acf6fdb30913cd15fe2219188.jpg

王琼花律师

知恒律师事务所 合伙人律师

深圳市律协著作权法律专业委员会 秘书长

知恒知识产权中心秘书长、著作权委副主任

专业领域:

知识产权(刑民交叉)、企业合规

公司法律顾问、民商事争议解决


著作代表:

《隆安律师解读民法典》合同编

《网络法学教程》

《深圳市福田区人民调解典型案例评析》


联系方式:

18718517127



中心简介


c768fe45d022c9aca7304ea1598a1826.png

知识产权中心

知恒知识产权中心目标:立志于打造一流的知识产权法律服务中心。

知识产权中心拥有专利、商标、版权、商业秘密、维权、国际、布局分析、运营交易等完整知识产权专业化部门设置,形成从基础申请、规划布局、风险防控、打假维权、运营交易、国际保护等完整的全产业链条。

知识产权中心拥有一流知识产权专家团队领衔,具备完善的服务流程及一体化的服务体系,在全球知识产权的各个领域提供专业法律意见及解决方案,力争让每一个案件、项目都可以得到专家参与制定的最优的解决方案,让客户体验到最严谨、专业的服务。


本文及其内容为知恒律师分享,仅为交流目的,不代表律所或律师出具的法律意见、建议或决策依据。如您需要法律建议或法律专业分析,请与知恒律所专业律师联系,或私信留下您的联系方式。本文如需转载,请在后台联系编辑。


法律咨询电话:0755-8889 0066

电话:0755- 8889-0066
传真:0755-83184636
地址 :广东省深圳市福田区广电金融中心22层
邮编:518000
微信公众号:知恒律师事务所
微博:知恒律师事务所