陈军标 杨兰:“网络爬虫”技术的法律规制
发布日期:2021-02-08 来源:《东方法学》

陈军标  上海市黄浦区人民检察院副检察长;

杨   兰  上海市黄浦区人民检察院检察官助理。

 

内容摘要:“网络爬虫”技术在搜索引擎上的运用由来已久。随着时代的进步,网络信息技术的不断发展,该项技术的运用范围越来越广泛。但随之而来的,不仅仅是信息共享带来的便利,也引发了诸多法律上的问题。然而,我国当前对于“网络爬虫”技术在法律上的规定尚不明确,司法实践中,对于该技术使用的法律边界的把控也各有不同。由于“网络爬虫”技术的应用不仅仅是技术运用本身可能违法,技术运用获取信息后,对于数据的加工、改造等也可能涉及违法。因此,对于“网络爬虫”技术的运用及其后续相关行为进行分析,明晰不同的行为方式所侵害的不同法益,把握好罪与非罪、此罪与彼罪的界线,对于当前较为缺失的理论研究和司法实践具有重要的意义。

关键词:网络爬虫  法律规制  民刑边界  网络信息技术

一、“网络爬虫”技术使用的基本原理及其引发的聚讼 

“网络爬虫”技术,实际上就是用设计的程序,在遵守一定的规则的情况下对网站、手机APP、小程序或搜索引擎等进行数据的浏览和抓取,由此获得自己所需要的相关数据的过程。数据的获取者,可以通过分析这些抓取到的数据,推测出互联网用户的喜好,顺势将有关信息推送给互联网用户,以提高平台的吸引力或达到其他的盈利目的。例如,通过抓取外卖程序上的用户点单信息数据,在美食推荐点评平台上根据相关信息,优先推送某些类别的餐厅,从而达到提高用户粘度并从商家方面获利的目的等。在数据抓取上,行业内通用的规则是robots协议,也称网络爬虫排除协议:通过爬虫技术可以访问和收集互联网站点的诸多信息,为了维护互联网秩序,尊重信息提供者的意志和隐私等,信息提供者可以在自己的站点设置robots协议,以告知爬虫控制者哪些信息是提供者不希望被爬取的。一般只要遵守robots协议,就不涉及侵权问题。但是,在技术运用的范围不断扩大的情况下,对于狂热追求利益的市场主体而言,该协议的约束力并不强,毕竟,robots协议的效力在法律上并没有进行确认。因此,很多互联网从业者也开始设置各式各样的反爬技术来限制其他互联网企业的爬虫行为。当然,并非所有的robots协议都是合理有效的,如果此类协议针对的是特定的人群,此类协议可能会被认定为违反民法上的公序良俗原则而无效,或者也可能会被认定为违反公法上的反歧视原则而无效。

随着互联网技术的不断进步,人们也越来越意识到数据的重要性,我们身处于“数据时代”,掌握了数据就等于占据了市场的优先地位。因此,数据资源的争夺成为当前社会主义市场中重要的一部分。网络爬虫技术其实在互联网上的适用非常普遍,其原本也是一种中立的技术。但近年来,有不少个人或企业滥用该项技术,造成诸多纠纷。不当利用“网络爬虫”技术可能会引发民法上的侵权纠纷、不正当竞争纠纷,甚至会触犯刑法、构成犯罪。如果无法精准把握不同行为类型的边界,出现混淆,将会造成不利后果。因此,对“网络爬虫”技术的使用过程进行分析,明确法律界限,对于网络技术的长期健康发展有着重大的意义。笔者将会对“网络爬虫”技术的使用方式及其侵害法益等方面进行分析,区分“网络爬虫”技术的合法使用与违法使用及违法犯罪,以期能够到达保障信息数据发展和法律规制的平衡。

二、“网络爬虫”技术的违法类型分析

网络爬虫技术的不当使用,不仅可能会引起民刑界限的把握困难,在部门法内部实际上也可能会存在不同行为侵害不同权利或触犯不同罪名的情况。分析运用爬虫技术抓取数据行为的法律风险需要把握以下两个层面:第一层面是爬虫技术使用行为本身涉及的法律风险,另一层面是对所获取数据的提供、传播等后续的数据使用行为。

(一)“网络爬虫”民事侵权类型

1.侵害公民个人信息数据权利

近年来,对于公民个人信息保护的呼声日益高涨,反映出我国公民整体法律素养的提高和急迫的隐私保护需求,也引起了立法的重视,即将在2021年1月1日实施的民法典就强化了对公民隐私权和个人信息权的保护。但是,想要通过保护个人信息权这一途径来对网络爬虫技术进行民法上的规制是比较困难的。虽然首部民法典对个人信息权的内涵和外延进行了规定,但是,个人信息权这一权利本身的性质还存在争议。人格权属性将个人信息权与隐私权进行了区分,然而,在以往的经验中,多数情况下还是以隐私权的扩大来对个人信息进行保护,这样的保护方式似乎在司法实践中无法起到太大的效果。再者,如果赋予个人数据以人格权的性质,那么,数据作为人格权的一部分,就无法自由让渡、交易,我们在网站上与互联网运营者就个人信息数据使用签订的协议可能就自始无效。如果赋予个人信息权以财产性质,那么,对于其造成的财产损失的数额等也无法进行标准化的判定,当前的司法实践中也未有类似的案例。通过对个人信息权的性质分析,不难发现,对于个人信息权在民法上的保护实际上存在一定的阻碍。往往发生的情况是对个人信息的侵害达到一定的数量或范围,就会直接入刑,那么运用网络爬虫技术对于公民个人信息的保护在民事领域就可能流于形式,有待立法和司法进一步的发展。

2.侵害企业信息权利

信息时代,许多网络运营商掌握了大量的公民个人信息,甚至在某些领域存在着垄断相关数据的情况。不仅是公民个人信息,还有其他方面的海量数据,这些数据对于企业在某一领域的竞争力来说都是至关重要的。对于网络爬虫侵害的企业数据的权利属性主要存在知识产权说和财产说的观点,旨在保护企业数据的前期投入和后期收益。

企业不仅仅是通过一定的方式获得了公民的个人信息或者其他信息,还会通过对数据的分析、加工等方式,来实现利用数据盈利的目的。通过分析、加工的这些信息就成为了企业独有的数据,而对于这部分具有独创性的企业数据如果利用网络爬虫技术非法获取,就可能侵害企业的知识产权或商业秘密。然而,想要对企业信息通过知识产权的相关权利来进行保护,也并非容易。对于信息数据的独创性、非机械编排性、新颖性、秘密性、实用性等特征的判断是非常复杂和困难的。因此,更多情况下会将这些经过加工的数据作为企业的“数据财产”加以保护。但是,如果赋予这些信息数据以财产权利的属性,又会在数据的控制和共享上存在认定的困难。

在当前的司法实践中,在企业信息的民事权利的保护方面,较为常见的是通过著作权来对滥用“网络爬虫”技术行为进行民法上的规制。例如,中文在线数字出版集团有限公司诉深圳聚领威锋科技股份有限公司案中,深圳聚领威锋公司在其应用程序“石头阅读特别版”APP上显示:“实时追踪网络小说更新,并第一时间提醒,我们使用最新的网络爬虫技术,智能帮你追踪你喜欢的网络小说,作者更新后,笔者及时搜索整个中文网络,并整理好格式第一时间呈现给你……”,被告未经许可在该程序中向公众提供了涉案作品的下载服务,侵害了原告享有的信息网络传播权及获得报酬的权利,被法院认定为侵害原告作品网络信息传播权,必须停止侵害、赔偿损失。本案的民事法律关系较为简单,被告在未经原告许可的情况下,通过“网络爬虫”技术,抓取原告网站的相关数据进行传播,并借由这些数据盈利,侵权行为的认定没有异议。

再如乐视网信息技术公司诉北京播罗万象公司案中,被告也是未经原告许可,在其网站“菠萝视频”中提供乐视公司享有授权的视频资源,侵害了乐视网公司的信息网络传播权。被告辩称其软件中的视频资源都是通过“网络爬虫”技术从互联网中抓取的,该资源是用户在互联网上可以免费获取的。该案中,被告认为“网络爬虫”技术是一种中立的技术,本身运用广泛,不涉及侵权的问题。但是,该案的焦点并非“网络爬虫”技术使用行为本身,而在于其后续的行为,抓取相关视频资源数据后,还进行广泛的传播,使得乐视公司的权利遭受侵害,应当对乐视公司进行赔偿。

通过以上的分析,我们可以得知,在民事领域对“网络爬虫”技术进行规制,其实并不容易,尤其是对该技术的使用本身的规制更是困难,通常需要通过爬取方获取数据的后续行为的认定来判断其侵权与否。

(二)“网络爬虫”不正当竞争行为类型

在反不正当竞争法的视域下审视“网络爬虫”技术的运用,就不再聚焦于数据的权利类型,而是运用数据可能会造成扰乱市场竞争秩序,破坏市场公平机制等方面。对数据竞争秩序的维护包括对公平数据竞争秩序的维护和对自由数据竞争秩序的维护。所谓公平数据竞争,是指应当警惕市场主体利用“网络爬虫”技术,违反robots协议,恶意使用技术,盗取其他合法拥有数据资源的市场主体的数据,损害对方权益而使自己的市场份额轻易增加的情形。所谓自由数据竞争,是指应当数据的自由竞争,避免某些市场主体过度占有某些数据而造成自由竞争的某一领域或行业的市场垄断的情形。近几年来,也有一些较为典型的利用“网络爬虫”技术侵害市场竞争秩序的案例,例如,深圳谷米科技有限公司诉武汉元光科技有限公司案、百度公司诉奇虎科技不正当竞争案等。

在谷米公司诉元光公司案中,元光公司利用“网络爬虫”技术获取了谷米公司开发的APP“酷米客”中实时公交信息数据,并且将收集来的这些数据运用于本公司的APP“车来了”中,向其用户提供了和“酷米客”APP相同的公交信息的业务。法院认为,谷米公司通过收集公交实时数据,并进行分析、加工,提供给用户,可以帮助谷米公司在相关的市场占据优势地位,而元光公司的行为,坐享其成,削弱谷米公司APP“酷米客”的市场优势,认定为元光公司构成不正当竞争。由于利用“网络爬虫”技术这一方式并没有具体规定在反不正当竞争法中的不正当竞争类型中,因此,法院对该行为的判断是通过反不正当竞争法第2条这一原则性的条款,来积极地弥补了这方面的漏洞。通过判断元光公司的行为是否违背了诚实信用原则和商业道德,是否对谷米公司造成了实质性的损害,就可以对其是否构成不正当竞争做出判定。

在百度诉奇虎不正当竞争案中,一审法院认为本案的争议焦点在于百度公司设置的robots协议的相关条例是否限制了360搜索引擎抓取相关网页数据,是否构成了不正当竞争。本案与谷米公司诉元光公司案不同,谷米公司设置的robots协议是合理有效的,且其robots协议适用于所有对象。而本案中,百度公司设置的robots协议将不允许抓取相关数据作为常态,违背了“网络爬虫”技术的初衷,使得抓取行为成为一种例外,且该协议针对的主体也并不宽泛,对于360搜索引擎有明显的限制。因而,法院认为百度公司的行为客观上迫使360搜索引擎的客户转而去使用百度搜索引擎,增加了百度的市场竞争力。百度公司认为奇虎公司构成不正当竞争的理由无法成立,百度公司在这一案件中败诉。

通过上述两个案例,可以看出,在商业竞争中,市场主体更加倾向于通过市场规则、不正当竞争法等规定来保护公司的数据安全。但是,并非破坏一方设置的robots协议就构成不正当竞争,需要对robots协议进行分析,还要对另一方运用“网络爬虫”技术的具体行为加以分析来综合判定。

(三)“网络爬虫”刑事犯罪类型

滥用“网络爬虫”技术,一旦达到一定的程度,就可能触犯刑法,就传统法益领域,可能侵害公民个人信息、知识产权等,就新型法益领域,网络数据系统安全等就可能成为“网络爬虫”技术侵害的法益。

1.侵犯公民个人信息罪、侵犯著作权罪、侵犯商业秘密罪等

对于公民个人信息的侵害,从上文分析可以看出,如果只是针对个体,很难从民法层面对“网络爬虫”技术的使用进行规制,更多的情况是侵害的体量达到了一定的程度,直接入刑,以侵犯公民个人信息罪来予以认定。该条款是刑法修正案九新增的条款,具体规定为,“违反国家有关规定,向他人出售或者提供公民个人信息”,在司法实践中,也确实存在以该罪名定罪量刑的情形。如魏江蒙案中,被告人魏江蒙利用“网络爬虫”技术,下载含有公民姓名和电话号码的工商个体户和单位的资料进行贩卖获利,情节特别严重,被判处有期徒刑四年。

除了侵犯公民个人信息罪这一罪名,出现频率较高的还有侵犯著作权罪。如李金波等侵犯著作权案,被告人李金波注册水滴在线公司,后来设立网站“快读免费小说”、2014年起,被告人李金波、王强、徐文晖为了提高网站的知名度和点击量,在未获得玄霆公司许可的情况下,擅自通过“网络爬虫”技术复制、转载玄霆公司发行于起点中文网等网站上的文字作品,提供给其用户下载,获得收益。本案不是简单传统的“网络爬虫”技术的使用,而是定向的抓取数据,并将内置搜索引擎转码升级,使得盗版技术变异升级,案件更为复杂。

2.非法入侵、破坏计算机信息系统罪

在黄后荣等非法获取计算机信息系统数据案中,福建微数公司软件工程师翁秀豪发现淘宝店漏洞,为增加派发优惠券的淘宝店数量,其向公司法定代表人黄后荣报告后,受到黄后荣的指示非法获取cookie数据,获取的淘宝用户cookie数据达到2600万组,利用获取淘宝用户的订单数据达到1亿条,情节特别严重,被定性为非法获取计算机信息系统数据罪。

在新型的法益领域,“网络爬虫”技术的使用主要涉及的罪名有非法侵入、破坏、非法获取计算机信息系统数据罪等,具体侵害的法益是什么,需要通过对“网络爬虫”技术的具体使用过程以及使用后获得数据再进行利用的行为进行定性分析,方可得出结论。

三、“网络爬虫”技术使用的法律规制路径

笔者认为,“网络爬虫”技术使用的违法与犯罪与否,主要取决于两个方面:一是权利人是否允许其合法享有的数据被抓取;二是,如若允许爬取,是否超越了允许的限度范围。综合这两方面,笔者认为对于“网络爬虫”技术使用的法律规制如下:

(一)民事违法界限

一般来说,对于公开数据的抓取是不会构成违法与否的问题,如果有明示或默示的约定,那么只要遵循robots协议或者遵守与权利方的合同约定,也不会造成违法的情形。这里的违约情形有两种:一种是没有明确约定,即单方授权的情形;另一种是双方经过合意,进行约定。

如果是单方授权允许爬取数据信息,那么其重点应当在于告知权利及权利边界的方式。笔者认为,数据权利方应当采用积极的方式来向使用“爬虫技术”的爬取方告知其是否能够对数据进行爬取以及爬取的范围为何。例如,数据权利方应当在去网页或程序中,明确以声明、警告等方式来对授权与否及授权内容予以告知。只要能够证明,在一般情况下,数据权利方尽到相应的告知义务,而爬取方没有遵守相应的义务,则视为违约,应当承担相应的民事法律责任。

如果是双方合意的方式,则重点就在于合同的内容本身是否有效以及对合同约定条款的遵守与否。笔者认为,该部分的内容,只要遵循民事法律的相关规定就能进行较为准确的判断,例如,爬取的方式、内容、以及后续对于数据的运用等方面,按照合同的规则即可。但值得注意的是,如果双方的约定造成数据权利方对数据的垄断,那么就需要考虑该相关条款的有效与否。

实际上,在民事领域对于“网络爬虫”技术滥用的规制存在一定的阻力,在对实践经验的总结中也可以看出。因而,对于“网络爬虫”技术在民事领域的规制,需要在立法、司法和法理上进行更多的探索,形成较为统一的规则。

(二)不正当竞争违法界限

在商业领域,通过“网络爬虫”而认定不正当竞争的情形还是较为普遍的。笔者认为,在不正当竞争的认定中,需要注意的重点如下:

首先,应当对当事人的竞争关系进行确定。在传统的商业领域中,对于竞争关系的认定需要对竞争方的行业、领域等等方面进行判断,而大数据产业链分为资源、技术、应用三个部分。因此,处于上下游的商业主体即使从事的大数据大框架下的细分类别不同,也可能也存在对于数据的实质性竞争关系。笔者认为,可以结合行业的特征、商业模式、上下游商业行为等,综合进行判断。根据传统商业模式能够认定竞争关系的,自不必言,如谷米公司诉元光公司案中,一方爬取另一方数据直接用于相同模式的软件,当然可以认定双方存在竞争关系。但在信息数据领域,不能仅仅凭借传统的判断方式来认定。如果通过直接爬取商业主体的开源性数据,进而对于数据的使用或加工能够帮助商业主体构建自己的商业模式,争取市场份额,也可以认定为存在竞争关系。

再者,需要对“越界”行为进行判断。并非简单的数据系统的入侵,获得信息数据的行为就构成不正当竞争,还要分析数据对于行为方的利用价值是否帮助爬取方增强了市场竞争力或扩大了其市场份额。当然,由于“网络爬虫”这种竞争方式没有规定在反不正当竞争法第2章的具体行为模式中,因此,需要用该法第2条进行普适性的运用。一般情况下,爬取方出于主观故意,突破爬虫协议或破坏反爬装置获取数据加以利用,造成数据权利方利益受损的,应当认定为构成不正当竞争。在一般的协议中,以公平自愿为判断基础,还需要考虑数据取得的难易程度以及数据本身是否具有可替代性等。如果数据是完全公开,各方都可通过爬虫技术获取或者爬取的数据并非独有资源,可以被轻易替代,那么就不能轻易认定不正当竞争。

最后,警惕商业主体对某一领域的完全垄断。并非所有的“反爬协议”的规定或“反爬技术”的使用都是合理有效的,对于数据的过度保护而造成的垄断是不被允许的。如笔者前文提到的“百度公司诉奇虎公司案”中,百度公司设定的协议针对360搜索引擎,导致360的用户被迫使用百度搜索引擎,客观上造成了竞争的不平等,并且进一步加强了百度公司的市场份额,违背“爬虫技术”本身的使用目的,可能会造成数据的垄断,非常不利于大数据的可持续发展,因此法院判决不支持百度公司的诉讼请求。随着我们逐渐步入数据时代,反数据垄断也成为反垄断的重要一部分。我们需要警惕某些平台单独享有海量信息、凭借数据先发优势操纵社会等风险。

(三)刑事犯罪界限

1.“网络爬虫”技术使用本身
当抓取者在明知没有授权而故意避开或强行突破技术措施时,属于“未经授权”访问或获取数据。与违反合约授权的数据抓取相比,其危害更为严重,行为人应承担刑事责任。这一条件也成为区分民刑的界限,与设立民事条款进行数据爬取限制不同,当数据权利人设置了数据保护的技术屏障时,说明了其对于数据的“强保护力”,突破这种技术屏障突显了行为人的主观恶意并非一般的违约故意,客观上导致的后果通常也是更为严重的。根据我国刑法规定,突破技术屏障入侵到他人计算机系统、获取系统内的数据,可能涉及的罪名包括刑法第285条规定的非法侵入计算机信息系统罪、非法获取计算机信息系统数据罪。有学者认为,还可能构成破坏计算机信息系统罪。笔者认为,这一观点有待商榷。利用“网络爬虫”技术的目的并非破坏对方的计算机系统,而是得到相关的信息数据。当然,在获取数据的过程中,可能会因为操作不当而导致破坏了计算机系统,但仍然应当其最终的目的作为考量,用牵连犯的理论来予以解释则更为妥当。此外,如果针对的对象是公民个人信息,利用“网络爬虫”技术非法获取,依照刑法第253条的规定,可能被定性为侵犯公民个人信息。行为人在权限许可范围内使用爬虫行为获取公民个人信息,或采取爬虫行为非法收集的公民个人信息无法识别特定自然人身份等行为,不构成犯罪。因此,对于本罪是适用需要谨慎,尤其是对本罪的适用前提“违反国家有关规定”这一客观要件的理解,应当符合以下一些要求:首先,爬取的数据应当属于可识别的公民个人信息;其次,该项技术的使用违反了robots协议的要求,突破协议对信息进行爬取;最后,爬取的行为还违反了其他有关的国家规定,例如网络安全法等一系列与网络安全及公民个人信息保护有关的法律法规。相信通过上述几点综合分析判断,可以较为准确地进行定性。2.获取数据后的使用行为在获得信息数据后的行为,实际上不属于严格的“网络爬虫”技术范围内的规制行为。但是,为对“网络爬虫”技术使用的全过程予以较为全面的分析,笔者认为,还是需要对其后续行为予以重视。特别是在行为人的主要目的是获取信息数据后实施违反犯罪行为的,就更加需要对后续行为进行定性分析。具体而言,对获取的信息数据加以传播、利用或改造,有可能涉及非法传播淫秽物品罪、侵犯商业秘密罪、侵犯著作权罪等等。当然,由于后续的行为方式多种多样,无法周延列举,因此,还是需要根据具体的行为模式在具体的语境下进行判断。结  语

“网络爬虫”技术本身是一种中立的技术,在数据网络中也逐渐被常态化使用。但是,随着数据资源对于社会主体的重要性日益增强,引发的问题也越来越多,对于立法、司法的挑战也在不断革新。立足于当前的中国国情,如何对“网络爬虫”技术进行规制,是许多部门法共同需要面对的难题。在法律层面予以重视的同时,也要切忌矫枉过正,阻碍信息技术的发展步伐,力求达到数据发展与法律规制之间的平衡。把握“网络爬虫”技术使用过程中法律规制的边界,将有助于促进数据资源开放共享,共同助力中国数字经济的高质量发展。

 

责任编辑:杨燕
本站系非盈利性学术网站,所有文章均为学术研究用途,如有任何权利问题请与我们联系。
^