正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2018-02-21 17:32

批量“搬运”B站的视频资源,在技术上能实现吗?

360又摊上事了,而且这次惹到了可能是中国互联网上最不好惹的一群人。


总结了各方说法,目前事态大概如下:


大量B站用户发现自己在B站上传的视频被“搬运”到了360旗下的视频网站“快视频”,包括复制了部分用户的用户名、个人简介、头像等,以及部分视频的播放量、发布日期、评论(弹幕)。被复制搬运的包括了“共青团中央”、“西安交通大学”、“迪士尼中国”等组织、企业为主体的账户。


对此,快视频方面的解释为:部分用户侵权了B站用户的作品并冒用了他们的身份,已经开始下线处理。


部分B站用户发现在快视频上输入自己注册B站的登录信息(邮箱/手机号)可以直接登录从未注册过的快视频,并且快视频上还能找到过去已经删除掉的视频作品。同时很多用户提到了2016年这个年份,用16年的用户名密码可以登录、现在已经被删除的16年的作品被搬运等等。


对此,B站发布声明通过技术手段没有重现出此情况,能直接用B站密码登录快视频。


可能为用相同密码注册过的360产品。


快视频发布声明称没有做出任何盗取用户信息及隐私的行为。


双方均没有对“2016年”作出解释。


对2233娘这样那样,真的…可以吗?


在这里我们可以单纯的从技术角度探讨一下,如果360或者其他组织真的盗取了B站资源,可能是怎么做到的?


想批量搬运信息、资源至少有两种方法,爬虫和盗取数据库。


关注机器学习的人一定对爬虫非常熟悉,某种程度来讲爬虫是一种更高效的搜索引擎,通过自动提取网页的程序按照规则获取数据。有了海量数据,我们可以做到很多事:比如喂给算法训练模型,又比如获取售房网站上某一城市的平均房价,做出关于房产的大数据报告。在做这些事情时,爬虫可以成为一种高效且无害的数据挖掘手段。


但爬虫可以通过的方法自动爬取视频、图片网站中的文件数据,包括那些需要加载广告、付费观看下载的数据。我们可以很轻松的找到一款名为“You-Get”的开源爬虫程序,用来下载视频、音频网站中的文件,也包括B站A站的弹幕。


如果360想依靠爬虫手段批量获得其他视频网站的文件,相信一定会比开源的You-Get更加高效。但是这种方式是绝对不能获取用户密码的,完全无法实现目前出现的B站用户名密码登录快视频的状况。



但如果攻击数据库,就可以实现。最简单的可以利用一种名为撞库的手段,获取用户在某一网站上的用户名密码,再用同样的用户名密码不断尝试其他网站。进入之后再进行拖库,获取该网站的数据库,其中就包括了大量的用户个人信息以及文件。


只是侵权?是什么让B站和360达成共识


看到这里,一定很多人都心里一惊,为了方便好记忆,很多人都会在多个网站上使用同样的用户名和密码,这样一来岂不是很危险?


我们大可放心,对于拖库撞库这种普遍切低端的黑客手段,大多数网站都会有所防范。像我们每次登陆时都会输入的验证码就是防范方法之一,通过各种验证手段阻碍黑客用脚本反复试验用户名密码尝试登陆,每一次都设置不同的“路障”,以防止自动化攻击。还有一些网站会实时监控用户行为,如果用户行为出现异常,像多次尝试密码错误,同一IP进入登陆页面多次,点击浏览速度过快等等,一旦发现用户出现了这种类似机器脚本的行为时,就会利用各种方式进行阻拦。


有了这些防范措施,不但可以阻碍数据库共计,也可以在一定程度上防止爬虫。如果防范者是BAT,而攻击者是一些不知名的黑客,我们一定会相信邪不压正,黑客无法获取到我们任何敏感信息。


可把两者的身份放到360和哔哩哔哩身上,恐怕会给人们留下完全不一样的印象。


360出身于网络安全业务,这也意味着360掌握着相当高阶的攻击与反攻击技术,同时360旗下有大量移动端/PC端产品,其中包括可以获取各种权限的360手机卫士和可以记录用户名密码的360浏览器。


至于哔哩哔哩呢,全身贴满了二次元标签、处于互联网企业中的三-四线,这就注定了B站在技术人才的食物链中处于下游。而且还在在2016年还闹出了一桩给技术大牛开5000月薪的新闻,据称当时造成了大量技术人员人心浮动,甚至还有网友贴出了B站在Github上的招聘启事,称B站技术部门大换血。



值得注意的是,很多网友对哔哩哔哩对安卓开发人员的招聘要求提出了质疑,尤其是招聘中提到了一条了解“编译原理”,这一条要求不仅和B站企业体量不匹配,而且在实际开发中用处不大。



但鉴于此条招聘启事发布在较为专业的技术论坛Github上,应该不会出现HR部分代技术部分撰写招聘启事所以出现专业性错误的问题。结合当时的技术大牛离职传闻,反而给人一种“B站技术部门遭办公室政治,血洗大牛,当前技术人员专业度不够,无法提出准确招聘要求”的不靠谱观感。


两者结合,在此次快视频事件中,我们很容易想象成360对哔哩哔哩为所欲为,而哔哩哔哩毫无还手之力……


而哔哩哔哩目前极力否认用户信息泄露、只谈侵权,也很容易被联想成掩盖自己在安全技术上的不足。毕竟哔哩哔哩在去年刚刚按照规定进行了实名制认证,UP主们上传了自己手持身份证的照片。如果这些信息和用户名密码一起泄露,后果将非常可怕。不仅仅会被拿去注册各种P2P产品薅羊毛,如果被拿去注册了其他内容网站,并发布一些反党反社会、邪教等等违规内容……简直让人不敢想象。


这一系列后果,对于最近刚刚透露赴美IPO消息的哔哩哔哩来说几乎是无法承受的。


现在事情还处于调查状态,我们当然希望这只是一次以个人行为为主的单纯的内容侵权事件,只是360和哔哩哔哩看起来都太像作恶者和受害者了。


如果真的只是侵权……


在最后,我们想简单谈谈视频内容侵权这件事。


包括音频、文字和图片在内,视频内容是最容易被侵权的内容形式之一。这里指的不仅仅是可以依靠爬虫程序下载视频重新上传或避开广告,而是对于平台来说,检索视频的重复度非常困难。


文字、图片都可以用低成本、快速的方法检索重复度和相似度来避免侵权,但视频文件却很难做到。目前有一种技术叫“视频指纹”,即通过运动状态、帧间差异等方式提取视频文件中独一无二的特征,再通过比对来分辨是否重复。可这种方式依然需要耗费大量算力,对于视频网站来说,实施起来恐怕是个不小的负担。更何况,这种方式只适用于同一数据库中的数据检索,如果像快视频这样用户盗用其他平台上的内容,官方平台是很难发现的。


目前各个视频网站实行的水印、反爬虫等等方式,大部分时候是防君子不防小人,对于B站UP主这样个人为主体,没什么精力和能力进行维权的内容创作者来说,盗取他们作品的成本实在太低了。B站对于UP主们的支持,也只能是在情况严重时替UP主们发布一份律师函。可这种事情不仅仅发生在哔哩哔哩和快视频之间,甚至在哔哩哔哩、快手等平台上,也会有UP主“无授权转载”国外视频平台上的内容。到最后,我们竟然会发现连受害者都不是完全无辜的。


快手上的搬运工们


如果是以往,我们会从技术角度寻找一些可能的解决方法。但这一次,我们呼吁先从人的角度做起,只有当每个人都开始明白别人的劳动成果不能随意分享时,才能截止这条无尽的“加害链”。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

别打CALL,打钱

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: