扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2026-03-04 16:38

开发者如何通过AI,合法抓取数据?

本文来自微信公众号:星夜律途,作者:王帅宾 lawyer,原文标题:《技术无罪,但“姿势”得对:开发者如何通过 AI 合法抓取数据?》,头图来自:AI生成


最近在圈子里流传着一句话:“爬虫写得好,牢饭吃到饱。”虽然是玩笑,但也反映了当下数据采集面临的严峻法律环境。AI的出现让数据抓取变得前所未有的简单——利用LLM解析复杂网页、自动绕过反爬、甚至模拟人类行为。


但技术手段的升级,并不代表法律底线的后退。今天,我们从刑事律师的角度,聊聊AI时代抓取数据的“安全准则”。


一、悬在头顶的三把“法律之剑”


在动代码之前,你得先知道哪几个地方是“雷区”:


1.《刑法》第285条(非法获取计算机信息系统数据罪):简单说,如果你突破了对方的技术防护措施(比如暴力破解、强行绕过验证码),不管你抓什么,都可能涉嫌此罪。


在司法实践中,司法机关聚焦于技术手段的非法性、数据性质及数量认定。


(1)技术手段的非法性是定罪关键:法院在裁判中明确指出,采用SQL注入漏洞、编写特定爬虫脚本入侵系统、进行“撞库”攻击等方式获取数据,均属于“采用其他技术手段”的非法获取行为。例如,在(2019)鲁0213刑初144号中,被告人辩称其使用SQL注入漏洞及爬虫脚本获取的是网站页面公开信息,但法院认为其行为是侵入计算机信息系统获取内部存储的大量数据,其中包含约1500万余条个人信息,故构成非法获取计算机信息系统数据罪,且情节特别严重。二审法院在(2020)鲁02刑终108号中进一步强调,即使数据本身可能部分公开,但通过入侵特定网站漏洞的方式批量获取,该技术手段本身具有非法性,不影响犯罪的成立。


(2)数据性质与数量认定的司法立场:对于获取的数据是否属于“身份认证信息”或其他计算机信息系统数据,以及数量的计算,法院有明确的认定规则。在(2014)昌刑初字第844号中,法院认定非法获取企业用户通讯录16000余组构成“情节特别严重”,驳回了辩护人关于该信息不属于身份认证信息、应认定为“情节严重”的辩护意见。这表明,司法实践中对“计算机信息系统数据”作广义理解,不限于严格意义上的身份认证信息。同时,对于数量的认定,除非有证据证明信息不真实或重复,否则一般根据查获的数量直接认定。


2.《刑法》第二百五十三条之一第三款(侵犯公民个人信息罪):抓取的数据里如果包含身份证号、手机号、家庭住址等,且你没有合法授权,这就是在悬崖边跳舞。


相关司法解释详细规定了该罪的入罪标准,例如,非法获取行踪轨迹信息、通信内容、征信信息、财产信息五十条以上;非法获取住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上;非法获取上述两类以外的公民个人信息五千条以上;或者违法所得五千元以上,均构成“情节严重”。达到上述数量标准十倍以上的,构成“情节特别严重”。


在司法实践中该类案件严格适用数量标准,并关注信息的敏感性与用途。


相关司法判决普遍严格适用司法解释的数量标准来认定是否构成犯罪及情节严重程度。例如,在(2018)冀0425刑初283号中,被告人非法获取公民个人信息94506条,被法院认定为“情节特别严重”。在(2021)鄂0105刑初22号中,被告人购买公民个人信息492,582条,同样被认定为“情节特别严重”。这显示,一旦通过技术手段批量抓取个人信息并达到法定数量,刑事风险极高。


3.《反不正当竞争法》:如果你抓取的数据是对方的核心商业资源(比如大众点评的评论、携程的酒店价格),且你的产品和对方存在竞争关系,对方分分钟能告到你倾家荡产。


在此我们用几个经典案例来辨析不正当竞争的法律边界。


(1)平台对数据集合享有竞争法上的合法权益。


平台经营者对其投入资源形成的数据集合享有受法律保护的竞争利益。在《(2017)京0108民初24512号》中,法院认为,微梦公司为运营新浪微博、维护数据安全付出了成本,涉案数据(明星动态)是新浪微博产品的重要基础,微梦公司可基于其对涉案数据享有的经营利益,依据反不正当竞争法提出主张。


法院指出,数据已成为经营者竞争的基础性资源,当经营者为收集、整理、维护数据付出成本,且数据整体可为其带来经营利益时,其他经营者未经许可擅自抓取且使用平台数据的行为,可受反不正当竞争法调整。类似地,在《(2021)浙0110民初2914号》中,法院认定微播公司作为抖音运营者,就直播数据整体投入了运营成本,该数据整体能够为其带来竞争优势,享有竞争法上的合法权益。


(2)构成不正当竞争的关键考量因素:实质性替代与损害。


司法实践强调,判断抓取行为是否构成不正当竞争,需综合评估是否对原平台造成实质性替代或损害。在《(2017)京0108民初24512号》中,法院从多个方面论证了云智联公司行为的损害性,包括:破坏微梦公司设定的访问和展示规则;部分版本直接、完整展示数据,使得用户无需回到新浪微博,构成实质性替代;分流潜在用户流量,影响广告等商业收益;增加微梦公司服务器压力和运营维护成本;可能导致用户个人信息泄露,破坏数据安全。这些因素共同构成了对微梦公司合法权益的损害。


相反,在《(2019)京0108民初33822号》中,法院认为江苏斑马公司虽然抓取了文章,但文章存在于网站前端,原告未采取反爬虫机制,被告也未破坏技术措施,且被告未对抓取的文章进行同质化利用,未攫取原告竞争优势或造成损害,故不构成不正当竞争。该案表明,单纯的抓取行为若未造成损害后果,可能不被认定为不正当竞争,但前提是手段正当且未进行竞争性使用。


(3)对公开数据抓取的合理容忍与限制。


平台对公开数据的抓取负有一定容忍义务,但该容忍并非无限制。在《(2017)京0108民初24512号》中,法院指出,基于互联网互联互通精神,平台经营者应当在一定程度上容忍他人合法收集或利用其平台中已公开的数据。但是,如果抓取公开数据的手段不正当(如破坏展示规则、伪装用户、违反Robots协议),或抓取规模大、后续使用造成实质性替代,则该抓取行为仍可能被认定为不正当。法院强调,对于公开数据,需结合数据数量、规模、价值以及是否造成实质性替代等因素综合判断。


二、AI抓取的“合规操作指南”


利用AI抓取数据时,请务必遵守以下“不翻车”原则:


1.尊重robots.txt:这是“君子协定”的底线


虽然robots.txt在法律上不具备强制性,但在司法实践中,它常被视为判断“主观恶意”的重要依据。如果对方明确禁止抓取,而你利用AI伪装成正常用户强行进入,这在法官眼里就是明显的“非法侵入”。


2.严禁“暴力抓取”,控制AI的频率


AI脚本可以做到极高的并发量,但请记住:如果你的抓取行为导致对方服务器宕机或响应缓慢,这可能构成“破坏计算机信息系统罪”。


建议:在AI爬虫逻辑中加入随机延时,模拟人类浏览频率。


3. “去标识化”处理:数据的二次清洗


AI在解析抓取到的非结构化数据时,应自动过滤掉敏感个人隐私。


律师提醒:抓取公开信息(如微博公开言论)相对安全,但如果涉及大量用户画像、私密社交关系,必须立即停止。


4.避开“实质性替代”原则


这是最容易被忽视的一点。你可以抓取数据做研究、做训练,但如果你的AI产品直接展示了对方的数据,导致用户不再去原网站,这就构成了“不正当竞争”。


三、面对“违约”风险:ToS真的有效吗?


很多网站的《用户协议》(ToS)里写着“严禁任何形式的爬虫”。


  • 民事层面:如果你注册了账号并勾选了协议,那么抓取行为就属于违约。


  • 规避方案:AI抓取时应尽量在未登录状态下访问公开页面。一旦登录,你就在法律上承认了对方的“家法”。


四、避坑CheckList(建议收藏)


在你的AI抓取项目上线前,请对照以下列表自测:



结语


作为律师,我常说:技术是为了解决问题,而不是制造问题。AI让数据获取变得轻而易举,但法律对“边界”的定义从未改变。


抓取数据前,先问自己三个问题:


  1. 我拿了谁的东西?

     

  2. 我是怎么拿的?


  3. 我拿来做了什么?


如果这三个问题的答案都能经得起法庭的推敲,那么你的AI之路才会走得更远。


本文来自微信公众号:星夜律途,作者:王帅宾 lawyer

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

感谢支持

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: