2024-01-23 08:08

微博首案赢了2000万，还在用API抓数据的你慌了吗？

有鲤LEGAL

本文来自微信公众号：AI合规圈（ID：gh_344b08562741），作者：陈焕、李琪瑶，头图来自：视觉中国

新年伊始，微博就在广东省高院，狠狠地赢了两千万。

两千万对微博来说可能不算什么。但在“国内数据竞争类纠纷案件”中，这已经是最高的判赔数额（之一）。

“数据抓取”构成不正当竞争的案子并不鲜见。但区别于通常的爬虫手段抓取数据，本案的特点在于：这是首例非法调用服务器API接口获取数据交易转卖，构成不正当竞争的案件。

更重要的是，本案法官在判决中对“数据要素”有关法益的考量，尤其是有关数据分类、案件取证、不正当竞争等有关争议的论述，可以为当下数字经济发展、数据合规实务和有关争议解决的司法实践提供宝贵的经验。

因此，我们专门整理了本案127页判决书中精彩的案件看点，结合我们的经验，为数商、有关企业和律师的数据实务提供参考。

一、简亦迅公司干了什么？

原告微梦公司是微博平台的经营主体，被告简亦迅公司及其深圳分公司经营iDataAPI平台，主要为公众提供调用API采集数据等功能，其中提供的API接口就包括微梦公司经营的新浪微博。简亦迅公司的行为包括：

1. 提供11项微博API数据接口

微梦公司主张，简亦迅公司在其经营的iDataAPI网站提供了11项与新浪微博相关的付费API接口，包括用户的关注、点赞、主页等微博账号数据、微博头条文章等。

2. 存储和出售微博的付费阅读文章

微博上有些内容是需要V+付费会员才能阅读的内容，而现在这些付费内容，却可以直接通过iDataAPI平台的接口直接获取。

3. 通过变换IP地址和微博账号，恶意绕开微博的反爬措施抓取数据

微博为阻止恶意数据爬取，会根据数据的请求频率、频次来判断是真人用户还是网络爬虫。微梦公司巧妙地通过置入“加密字符串”的取证方式（我们会在下文详细介绍），证明简亦迅公司为了规避微博的反抓取措施，每次都采取变换不同的IP地址和用户信息的方式来抓取微博数据。

除了简亦迅公司的前述行为，微梦公司还主张简亦迅公司根据特定客户需求定制抓取新浪微博数据、使用“微博API”作为百度竞价排名搜索关键词。

二、本案的独特之处：API接口抓取数据

在本案之前，微博曾与脉脉就API接口有关的问题对簿公堂。但与本案不同的是，在微博诉脉脉案中，微博与脉脉曾存在合作关系，并基于合作关系向脉脉开放了API功能，但仅支持脉脉调用微博头像、名称、标签等信息。但由于微博当时存在技术漏洞，脉脉通过同样的接口获取了权限之外的用户职业和教育信息。在双方终止合作后，微博虽然终止了脉脉的API端口权限，但脉脉仍在使用之前获取的微博用户数据，超过了双方的授权范围。法院最终认定该案脉脉构成不正当竞争。

本案与新浪微博诉脉脉案的区别在于，简亦迅公司未经微梦公司许可，调用微博的API接口，不断通过变换IP地址和用户名来绕过微博的反爬措施；而脉脉是通过原先双方合作的开放API接口，获取了权限之外的其他用户数据，并在与微博的合作终止后仍继续使用，将非脉脉用户的微博信息展示在脉脉用户的脉脉软件联系人中。

本案双方在庭审过程中，对微博的API接口是否已经公开、是否因为被公开而可以正当合法地使用展开了讨论。简亦迅公司认为，微博的API接口已经在GitHub网站上被公开，简亦迅公司通过该方式获得了微博的API接口，具有合法来源。但该观点并未被法院采信。

三、微梦公司取证的妙手：放置“加密字符串”

为了证明简亦迅公司通过变换不同的IP地址和不同的微博用户账号来规避微博的反抓取措施，微梦公司进行了公证取证，取证过程堪称教科书级范例，归纳如下：

1. 微梦公司将微博服务器收到的、在简亦迅公司每次抓取时所提供的IP地址、微博用户uid（微博为每位用户设置的身份识别号）等信息进行加密，形成一段加密字符串，放置在微博“V+会员付费阅读文章”的数据中。

2. 从简亦迅公司抓取的微博数据中，能找到该加密字符串，解密后可以得到简亦迅公司抓取微博数据时所使用的IP地址、微博用户uid等信息。

3. 将上述过程操作10次，每次解密后，均获得不同的IP地址和微博用户uid信息，证明简亦迅公司在每次抓取新浪微博数据时，均变换IP地址和微博用户账号，以规避、绕过微博服务器的反抓取措施。

4. 在对前述内容进行公证取证时，微梦公司于同一份公证书中，在放置加密字符串前、中、后的三个阶段依次进行取证，完整地还原了简亦迅公司未经合法授权，通过微博的API接口抓取数据的全过程。

通过放置“加密字符串”，微梦公司的取证效果得到了充分的保障。但这样的取证方式，有一定的必要前提：被告的侵权行为需要具有实时性。在本案中，简亦迅公司获取数据的方式，是通过API接口，实时向微博的服务器请求数据。而当被告请求的数据是一次性的、不具备实时性的时候，又应当如何举证呢？

这就需要原告珍惜自己的数据和版权，具备“提前埋伏”的思维。

我们在代理另一起案件时，也曾采用了类似的策略，同样取得良好的效果。在该案中，我们对该案原被告的数据进行一致性比对时，重点对原告预先已经在作品（或数据集）中放置的“加密字符串”，与被告的作品（或数据集）进行比对。经比对，被告在整个作品的多处表达，与原告的表达完全一致，有些错别字、病句或者前言不搭后语的表达，被被告完全复制。

这种提前埋伏的信息或标记，可以是一些故意而为的错误，也可以是一些通过某种方式隐藏的字段，需要在发布作品（或数据集）之前提前放置。当被告使用的侵权作品（或数据集）数量巨大时，一般难以在海量数据里对这些信息或标记进行清洗；而一旦在取证的过程中成功固定这些信息或标记，则往往可以在庭审中获得一锤定音的效果。

四、应当如何对涉案微博数据进行分类？

一审法院将涉案微博数据分为三类：

1. 微博用户使用行为生成的数据。包括用户使用微博平台服务时的注册信息、发布的内容等数据；

2. 微博提供服务生成的数据，包括转发、点赞、关注、粉丝数量、uid、id等信息；

3. 微博利用算法形成的“微指数”大数据产品。

对此，简亦迅公司认为前两类属于公共领域的公开数据，天然不具有排他的财产性权益；而后一类中，简亦迅公司虽然认可微博对数据进行了实质性投入，但由于“主动向公众开放”，所以只要简亦迅公司的访问不妨碍微博的正常运行，就不构成不正当竞争，不能享有排他的财产性权益。

二审法院基本认同了一审法院分为三类数据的做法，将前两类数据分别简称为“用户使用数据”和“平台服务数据”。但二审法院对“微指数”单独归类，认为其“具有深度知识产品的特性，不是简单由数据的系统化、规模化集聚和整合而成，而是利用算法技术对平台数据集合进行计算加工而成的独立的大数据产品，其价值体现在该数据本身的知识性、启示性，与前述的平台数据集合不宜在同一层级并列。”

至于“公开数据或不公开数据”、“企业数据或个人数据”、“原始数据或衍生数据”等分类方式，法院则认为应当尽可能简化，避免在数据类型上构成交叉；且由于简亦迅公司的API数据提供方式确实存在类型上的交叉，因此更应当简化分类方式，以便进一步探讨。

这对于企业的数据管理有何借鉴意义呢？

TC260-PG-20212A《网络安全标准实践指南-网络数据分类分级指引》（以下称“分类指南”）将数据分类为“用户数据”“业务数据”“经营管理数据”和“系统运行和安全数据”四类。其中，“经营管理数据”在微博案件中没有涉及，但其余三类数据的分类方式，与一审法院的分类大致相同。

不过，如果按照二审法院对“微指数”的评价标准来看，“微指数”确实难以直接归类到分类指南中列举的四项数据类别中去。评价数据分类的合理性后，二审法院并未进一步在分类的基础上进行论述，但综合本案的情况来看，简亦迅公司讨论数据分类，最少有以下价值或意义：

1. 从简亦迅公司的业务本身来看，“数据分类”是其宣传营销的卖点；

2. 从诉讼策略上看，如果简亦迅公司的分类方式得证，则可以大幅降低其侵权责任，尤其是“属于公共领域的公开数据”的分类方式，本质上是在对数据公开与否进行界定，是对微梦公司数据“财产权利”进行否定的积极尝试。

但二审法院并未让简亦迅公司的策略发挥作用，而是四两拨千斤地用“用户使用数据”“平台服务数据”以及“微指数”大数据产品的划分方式，避开了对数据是否公开问题的直接讨论（数据公开问题的讨论，将在不正当竞争的环节进行），在根本上否定了简亦迅公司通过分类来降低责任的划分方式。

因此，结合本案的说理，企业可以对数据分类做如下考量：

1. 在日常的数据管理中：应当结合企业数据的实际情况，充分考虑业务的实际场景，参考TC260-PG-20212A《网络安全标准实践指南-网络数据分类分级指引》或GB/T 38667-2020 《信息技术大数据数据分类指南》等指南，对数据进行多维度的分类，满足监管和日常经营管理的需要。

2. 在数据相关的争议解决中：应当考虑案件的实际情况，在做好日常数据分类管理的基础上，选用最适宜的分类标准，为法庭论述提供事实依据，提高抗辩或诉请的证明力。

五、从“生产要素”的角度看数据抓取是否涉不正当竞争

二审法院将“数据”视为“生产要素”，进一步讨论简亦迅公司的“数据抓取”行为，是本案的一大看点。

首先，法院认为数据在流通中产生价值。从有利于数据要素市场化发展的角度来看，既不能固步自封、过度管控而造成“数据孤岛”，也不能一味追求数据开放共享、互联互通，而是要确保数据依法有序流通和利用。对于简亦迅公司认为的“公开”就等于进入共有领域的观点，法院认为，如认定“公开”就“共有”，会导致数据持有方，通过各种技术手段对持有的所有数据进行更严格封闭的控制，不利于数据市场的整体创新和健康发展。

其次，法院认为数据抓取是大数据时代发展的必然产物，有助于发挥数据价值。数据抓取实质上是以机器和程序来模拟用户访问行为的一种技术形态，能够高效率、低成本地促进数据流通。数据抓取可能会抢夺基于数据竞争优势的部分交易机会，但也可能在某种程度上促进数据的流通和利用。所以，不能仅因为数据抓取行为具有争夺利益的属性，就直接认定这样的行为构成不正当竞争，而需要根据实际情况对双方的利益衡平、社会福祉等角度进行综合评价。

再次，微梦公司对涉案微博数据享有竞争性权益。微博在经营过程中产生的用户数据，可以被作为生产要素被合法加工，形成数据集合和大数据产品。微梦公司对涉案微博数据享有“自主控制、合法利用获取经济利益”的权益，可排除他人尤其是竞争对手针对数据资源的不正当竞争行为。简亦迅公司的iDataAPI网站的相关数据业务，与微梦公司具有竞争关系。如果二者之间合法竞争，即便一方利益受损，也是法律所允许的。确定简亦迅公司是否构成不正当竞争，重点在于认定简亦迅公司的前述行为是否扰乱市场竞争秩序、是否违背商业道德。

最后，简亦迅公司抓取、提供涉案数据的行为构成不正当竞争。简亦迅公司访问了微博有偿提供的、未主动公开的API数据接口，通过不断变换IP地址、微博用户UID和伪装UA信息的方式，骗取了微博服务器提供的数据，在未对数据提供任何贡献的情况下倒卖微博数据，可能导致微梦公司、用户数据有关权益受损，扰乱市场秩序，造成原简亦迅公司双方利益失衡，构成不正当竞争。

本案法院的判决对于数据治理有关问题具有重要的指导意义。在数字经济快速发展的时代背景下，法院以“数据要素”为视角，在判决书中积极地对数据抓取、数据分类、数据权益与不正当竞争有关的问题进行探讨和说理，为企业的经营管理提供了宝贵的指引。

随着数据要素市场化发展的深入，与数据有关的争议，必然会越来越多地进入司法领域，企业除了应对监管部门而做出“数据合规”的制度建设或尽职调查外，也需要关注因为数据而产生的一系列竞争法问题，既要维护“数据三权”，也要避免陷入与数据有关的不正当竞争漩涡，积极探索数据分类和管理策略，为数据资源的合理利用提供有力支持。

作为参与数字经济发展的律师，我们期待在司法实践中看到更多与“数据要素”有关的说理和实践。正如本案法官所说：要在法律法规和商业道德基础上合理界定和维护市场竞争秩序，充分激励数据生产积累、持续供给，促进数据合法、安全、高效、便捷地流通和利用，从而实现数据要素赋能数字经济公平、稳定、可持续发展的目标。

本文来自微信公众号：AI合规圈（ID：gh_344b08562741），作者：陈焕、李琪瑶

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

文集：

数据读心记

AI创投日报

频道：前沿科技