扫码打开虎嗅APP
本文来自微信公众号:caoz的梦呓(ID:caozsay),作者:caozsay,题图来自:《少数派报告》
其实不同行业,不同领域的风控还是有很大区别的,这里只针对典型刷量,刷榜,不当获利等类型的网络行为,进行风控体系的一些基本架构。
当然,与时俱进,有些新的思路可能已经超出我的认知,也欢迎批判指正。
数据预警
当业务数据有比较明显波动的时候,无论是往好的方向,还是坏的方向,都应该立即提示预警,这个波动范围是多少呢?对于巨大的互联网平台而言,超过5%的同比变化很可能就是一个预警阈值,但对于很多创业小团队来说,可能大幅度变动比较频繁,阈值可以设置的高一些。
我做个假设,如果你是微信产品经理,你发现今天在没有产品升级,没有热点新闻的情况下,朋友圈的浏览和转发增加了5%,你会认为这是自然增长么?多半你会暗骂一句,妈蛋,又是什么裂变套路失控了。
来,思考题,为什么微信不遗余力地绞杀各种裂变运营?裂变难道不是数据向好么?这是一个典型的风控认知问题。曾经,人人网会认为这是好数据,所以它死掉了。
数据预警不代表一定存在问题,但快速甄别和判断是需要的,正确理解数据变动的原因,并快速确认,这是一个风控需要处理的问题。
数据预警不只是总量信息的预警,比如来自于某个特征的数据突然激增,也是需要关注并确认的,比如某个地区的访问量突然激增,或者某种设备的访问量突然激增,就很可能来自于某些刷机的机池。
至于怎么分析数据异常,以前提过,对比、细分、溯源,我这三板斧可以解决绝大部分的数据异常定位问题。
风控的处置引擎
处置引擎用于对数据进行清洗,过滤和阻断。
处置引擎的处理策略包括实时处理和回溯处理。
实时处理就是针对当前的操作,当前的行为进行判定,并实时进行标签,过滤或阻断。
回溯处理就是对历史数据做分析,并做出合理的判断和处理,比如清洗数据,或者常见的砍单。
标签的意思是,系统怀疑这个数据有问题,先标记下来,后续人工校验。
过滤的意思是,这个数据系统认为无效,不予记录,但用户仍然可以有效的进行操作和交互。
阻断的意思就是,这个行为被认定无效,用户交互被阻断。
规则配置
处置引擎通常是基于规则进行处理的,那么规则的配置就是一个典型的系统。
典型如黑名单,比如符合什么条件的被阻断,符合什么条件的记录要被清洗,符合什么条件的记录打标签。
这里有两种常见规则,一种是针对单条信息基于明确的规则阻断,比如来自于黑名单的ip不予访问。另一种是基于某些统计规律进行清洗,比如来自同一个ip区段的重复点击超过阈值后不再记录。
机器学习
在古早互联网,规则的产生是来自于针对历史经验教训的总结,一个资深的风控基于日志分析和过往被侵袭的记录,逐条设置规则,防范欺诈点击或其他不当得利。
但现在不一样了,机器学习开始逐渐替代人工,自动基于一些坏记录,整理规则,甚至超出人类的常识。
而这些规则,很多时候,是可做,不可说的,比如说,某个现金贷平台,基于历史的坏账记录,机器学习总结出一条规律来,身份证号码前几位是什么什么数字的,坏账率明显偏高,那么这个规律就被写入了风控规则库。
那你说是不是有误杀,机器关心的是整体效率,比如整体坏账率2%,而符合这个规则的坏账率是10%,10%已经会导致平台严重亏损,所以加入这条规则,虽然会误杀掉符合条件的90%的好人,平台也是愿意的。
为什么可做不可说,你讲出来,这叫什么,地域歧视,你凭什么说人家这个地区的就是坏人。你毕竟误杀了90%的好人对不对,但这是机器学习做出来的,所以,可做,不可说。
情报体系
风控的负责人员,核心人员,应该加入一些安全行业的内部社群,参与一些安全行业的交流活动,甚至还需要渗透到各种羊毛党群,各种黑灰产社群,潜伏了解一些流传的攻击手段和攻击资源。我以前说过一句话,一个公司的信息安全,三分靠技术,七分靠人脉,今天还是要重复这个观点,真的。
有人觉得我能力强,水平高,我不混圈子。信息安全,风控这个行业水很深,可能你的平台被某些对手搞了很久,圈内都知道了,就你不知道。这种事其实挺常见的,早些年那个空空狐创业者,自称被投资人欺负的那个,数据是因为愚蠢的补贴策略,被信用卡套现的羊毛党薅出来的,各种社群都在交流,就创业者自己不知道,还觉得自己业务数据挺好。
业务影响评估
风控也不是越严格越好,因为过度严格的风控会把业务搞死。今天我们说商旅行业羊毛党仍然有很多玩法和路数,那些商业巨头难道不清楚?为什么航空公司,酒店集团,对积分里程的各种羊毛玩法没有斩尽杀绝,水至清则无鱼啊,让会员总觉得有便宜可以赚,也是一种维持用户增长的途径。
所以各种风控策略上线后,依然要基于数据不断评估和反思,是不是某些策略所处理的问题已经不那么严重,误杀率是不是有点过高,对正常用户的行为是不是造成了干扰,可能特殊阶段会有比较严格的策略,那么这个阶段过去后,相关的策略是否可以减弱甚至取消?
风控其实有两个指标,第一是对不良行为的清洗、阻断率,是不是真正有效的让那些干扰和噪音不再影响业务和决策者的判断。第二是对正常业务的干扰率,风控不可能是完全精确的,任何一条策略都可能干扰到正常用户行为和正常业务数据。那么这个影响是否可以控制在足够小的范围内。这是要经常反思和分析的,千万不要被业务负责人过来追着骂的时候,才想起来这里可能有问题。
大体如此,实际细节还是非常多的,而且还不敢展开,一展开就暴露我的无知了。
本文来自微信公众号:caoz的梦呓(ID:caozsay),作者:caozsay