扫码打开虎嗅APP
Photo by Nahel Abdul Hadi on Unsplash,造就第436位讲者 方兴(全知科技CEO)
现在大家的数据隐私,很多都在被窃取、被泄露,这些窃取数据的手段远远超出我们的认知,它们是如何获得这些数据的?
有一个区域,无论是监管层面,还是网络安全公司,都没有给予应有的重视。所以我要讲的是——不能被忽视的业务应用层的数据安全。
数据已成为获得知识和情报的基础原材料
为什么数据变得这么重要?实际上,我们需要重新理解数据的价值。
以前我们往往把数据看作一种信息的载体,所以谈到数据安全,往往从信息数据载体的角度来谈的。
但是我们认为,数据在未来不仅仅是信息的载体,在人工智能(AI)时代,数据已经变成了一种生产资料。
原来我们是基于信息,在信息之上获得知识与情报。而现在,AI和大数据技术的本质都是通过模型获得知识和情报。未来,数据将变成我们获得知识和情报的最基础的原材料。
实际上“网络黑灰产”(网络黑灰产,指的是电信诈骗、钓鱼网站、木马病毒、黑客勒索等利用网络开展违法犯罪活动的行为)来窃取我们的数据,很多时候也是把这些数据当做获得重要知识和情报的手段,所以它要获得一切与我们有关的数据。
第一个就是从外部着手,我们有很多暴露在外部的业务的系统,那它们就想办法从这里去获得数据。
针对内部的系统,它可以通过收买内鬼,甚至植入一些定向木马来获取你的数据,然后再通过这些数据去分析、关联你的隐私,最后形成很多关于你的重要信息。
平常你认为并不重要的数据,很可能会给你带来致命的危险。
传统用户ID无形中成为了“骗子的利器”
在电商行业有一个非常经典的诈骗场景,我们称之为”新商家保证金诈骗”。
现在大家都可以开设电商账户,比如在各个平台上面卖货,如果你是一个新商家,那你可能对平台的规则不是很了解。
在电商当中,有一个典型的规则叫库存规则,就是说你上架声明只有十件货,如果这十件货已经被卖完了,再有客户来买你的第十一件货,你可能就卖不出去了,因为平台认为你的货已经卖完,没办法再给用户交付。
但很多新商家不知道这个规则,那骗子就会用这个方式来诈骗。
如果骗子能识别你是新商家,他就会把你的十件货全拍完,不付款。然后再来伪装成一个用户去拍你的第十一件货,这时候这件货就卖不出去。
骗子就找到你的联系方式向你投诉——你看,你的店铺等级太低了,已经被电商平台封掉了,所以你卖不出去货。
这时候这个商家就会很着急,骗子再伪装成电商的客服人员去诈骗这个商家说——你的店铺等级太低,给我交5000块钱保证金,我们就可以提升你的等级。
这边骗子伪装成的用户在催,另一边骗子伪装成的电商客服又在压 ,很多新商家由于不明就里,有很大的概率会上当受骗。
这种骗局的关键在于能否精准识别出新商家,如果不能识别,那他诈骗成功的概率就非常低,骗子要骗很多人才碰到一个新商家,对他来说就无利可图。但是如果能准确识别,新商家的受骗率可能会高达20%以上。
这当中与数据安全有什么关系呢?
我们以前给用户生成用户ID,99%以上的系统都是用数据库递增字段,12345递增上去,以保证ID不会重复。
那这样会导致一个什么问题呢?黑灰产只要爬到系统最后的一个用户ID,然后不断地去试探是否生成了一个新ID,就知道这是一个新的商家进来,然后就流水线地开骗,诈骗成功概率就非常高。
我们想过没有,一个用户的ID数据,特别是带有交易的场景,会给用户带来非常大的风险?
用户评价
很多时候你会发现,你认为不重要的数据到了黑灰产手上,可能就会变成它的桥数据。在电商平台上面都有一个基本的功能,就是允许购买者去评论商家货物的好坏。但是这个评论就暴露了用户的购买关系。
对骗子来说呢,他就可以伪装成商家客服人员,以帮助解决商品问题为名实施诈骗。当时我们对用户名做了很多保护,比如打星号做脱敏,但在真正的对抗当中就发现,骗子很多时候还是能把真实的用户给关联起来。
为什么?因为骗子之前就把很多与用户属性相关的数据爬走了,比如说头像、地域信息等等,他们把这些数据相互一关联,还是能把这个人找出来。这时候想要去保护用户的数据就非常困难了。
当你有业务数据在系统上透出的时候,你的访问流量里有大量都是来自爬虫。网上有一个关于互联网真实流量的笑话——我们所有的流量当中60%是来自爬虫,还有30%是社群,剩下10%才是真正的业务流量。
黑灰产会用爬虫去爬走所有能够刺探到的数据。以前打掉的一些黑灰产团队,手上掌握着的数据量极其惊人,有数百亿条个人隐私数据。
其核心手段就是爬取数据,然后对它进行关联,再精准识别到每一个人的身上去。
不需要黑客攻击,插上U盘就能植入木马
第二种方式就是应用的桌面端植入木马,这是很多业内人都不知道的手段。
很多的商业系统都有自己的应用客户端,比如说我们去酒店住店,他们有住店系统,这些都是商家为自己的业务独立开发的一套系统软件。黑灰产就会开发只针对这个特定应用的系统软件的木马,这个木马只篡改这个应用系统的模块。
因为这个业务应用系统软件是商家专有的,只有数千主机的部署量,所有杀毒软件都无法识别这个应用的被篡改,到底是属于正常软件升级还是被植入了木马。所以说他们专门做这种定向性非常强的木马。
做完这个木马之后怎么植入呢?不是我们想象的利用漏洞等对抗手段,不需要,直接派人去现场,通过应聘等方式混进去。
如果企业管理不善,只要趁机把USB硬盘插进某台电脑,就把木马植入了,再用它窃取大量的数据。
我们以前跟这样的木马做了非常艰难的对抗,很多大型的商业应用都有被专门针对的木马。一些互联网企业在安全上投入非常大,也有专业的技术能力去跟黑灰产对抗,但是其他企业,比如酒店的应用,根本就没有能力保护自己的数据不被这种手段所窃取。
个人终端失控、离职员工、内鬼是极大威胁
再就是合作伙伴、离职员工的滥用。在企业内部管理过程中,尤其是有数据合作的情况下,进行数据安全管理是非常的困难的。
比如说某金融企业有很多征信数据会提供给合作伙伴来调用,这是一个共享账号,但是合作伙伴里面又有很多人、很多部门使用这些数据。后来有一个人离职了,但是企业这边不会因为一个员工的离职而修改账号密码,这在管理上很难做到。
这个离职员工知道征信数据非常值钱,他就投身了黑灰产,利用这个账号密码大量窃取涉密的个人征信数据,然后再拿到市场上进行倒卖。
电商领域里的很多数据泄露,就是通过收买内部人员,尤其是收买客服人员来实现的。
因为客服人员在电商领域中属于工资非常低的,而在黑市,一条五分钟之内的个人订单热数据可以卖到十六块钱。因为五分钟之内最容易骗你,对吧?
你刚下了一个单,电话就打过来,说你在我这里买了一个什么东西,这种情况下最容易被骗。
这对掌握了这些订单数据的客服人员是多么大的一个诱惑啊。他们一天接触几百个人,如果卖出这些数据,比他一个月的工资都高。
针对一些不懂技术的员工,黑灰产会从他们手里收买账号cookie,拿到了cookie就可以用这个员工的账号远程登录系统,去获取大量的数据。
一个cookie账号,在黑市上能卖两三万块钱!就是这些手段导致大量的个人隐私数据被窃取。
还有个人终端失控,这个在企业中更难以管理。现在我们很多数据通过手机就可以查看到,但是并不能保证每次都是你的员工在访问。
我们有一个案例,一个员工的女朋友是做猎头的,当他回家之后,女朋友让他洗澡,然后他的女朋友就用他的手机去访问大量内部人员的通讯录数据,再把这些数据倒卖给猎头公司,或者是帮助竞对公司定向挖人来获取利益。
所以我们可以看到,在应用层面存在着非常多的数据风险点,大多数的数据泄露都是发生在应用层,但实际上无论是企业,还是监管层,甚至是网络安全公司,都很少注意到这一块。互联网公司已经开始认识到这个问题,现在也越来越重视。
面对无孔不入的黑灰产,我们该如何防御?
怎么解决这些问题?
目前主要的一些方案,一个就要对所有涉及到有数据接口的数据进行管控。
到底数据在哪里暴露?你在应用层上有哪些接口?有哪些数据的透出?全部梳理起来,这样就能很好的去识别风险。还有第三方的后门,我没有这个接口,为什么出现了这个接口,去找到它的风险。
另一个就是要管理,刚才说到很多窃取数据的方式是把你所有的数据,所有你认为没关系的数据都搞到手。
但是在外部的应用当中有一个很大的问题,就是我们迭代太快了——A版本可能有三十个接口,B版本有三十五个接口,然后A版本当中有二十个没用了,但这二十个没人管,就放在这上面。
对于黑灰产来说这都是它获取数据的一个途径,所以要监控失活的接口,哪些接口已经没什么人用了,就要及时地把它给下线掉,控制这样的数据暴露点,避免被黑产大量的去获取。
再有就是流向的风险。就你的数据到底都往哪里流了,是不是都流到了你希望它去的地方?是不是流向了正确的地点?数据流向的这个主机是不是一个正常的主机?
比如说我们在一个银行发现,大量数据留向了一台机器,后来发现它是一台打印机。当然,不是说这些数据流向打印机是不对的,但是这台打印机明显就是一个风险,它放在一个公开的场合,没有任何人对它进行控制和管理。
但通过监控数据的流向,就可以看到重要的数据都去到哪里,该去的地方是不是对的,是不是采取了相应的保护措施,才能更好地保护相关的数据。
第三就是对数据流动异常、大批量的拉数据、爬虫等风险进行及时的感知,对它进行控制。
我们以前对抗爬虫的很多手段现在越来越难了,大家原来认为爬虫不就是多用了几个IP,把IP封了就好了。但现在专业的爬虫会走移动的3G、4G网络,因为3G、4G的网关后面基本上带着一个区域几十万人的上网端口,他们都用同一个IP,你去封那个IP,可能会误杀掉很多正常的用户。
更专业的爬虫甚至会做一个SDK(软件开发工具包),谁用这个带爬虫的SDK,每个月就能得到五十块钱——用这种办法吸引一大帮正常用户装它。当你想要封掉它的时候,就有一堆真实的用户对你进行反弹。
如果爬虫只针对一个专业的接口,你很难在海量的流量当中将它识别出来。这个时候就要对每个接口的流量进行精细化的识别,才能知道它在爬我这个接口,我该怎样处理它,因为只针对接口封IP,就可以把对正常用户的影响给降下来。
我们更要知道它为什么要爬我这个数据。这样你才会知道数据真正的风险在哪里,你才能对它进行有效的对抗和保护。
现在很多公司的用户ID数据不再用递增的方式去生成,而是全部用随机化生成,通过这种方式对用户进行隐私的保护。还要对人员的行为和合作伙伴的行为进行比较强的审计。
个人用户要对自己的账号进行管理,重要的地方都要用不同的密码,避免一个地方的数据、账密丢失之后,导致你在互联网上所有系统的数据都被暴露出去。
最后,要去做很多的溯源,这是企业内部要做的事情。通过把所有的最关键的数据行为追踪和记录下来,这样就可以做到当发生数据泄露事件时,在一天之内就能定位到可能是谁以及在什么地方把这个数据泄露了。