扫码打开虎嗅APP
明天就可以买腊月29回家的票了,只能在大年三十头一天放假的你,肯定明天起个大早就得去抢票。为了明天抢票成功,建议你今天晚上连夜学习验证码全真模拟题,毕竟它可是“打败了全国99%购票者”!
(刘翔、白百合、孙楠这些明星脸应该是ps的,但相信你们买票碰到的验证难度不会低于这个)
对比12306上这样的画风,这家叫做极验的创业公司提供的产品是这样的:
为什么验证那么难!
在讨论验证产品前,先明确一个概念。第一种是来自图灵老先生的判断,验证你的行为是人还是机器人。第二种是发送手机验证码,是为了核实你是不是本人。而我们刚刚提到的12306用的验证和极验都是为了防止机器人刷,属于第一种。
明确了讨论范围后,我们看防机器人验证这个事,其实最早都是用的字符验证,就是下面这样#如此扭曲,画风还差#:
为了解决字符验证体验不好,且日益不安全的情况,各家都提出了不同的解决方案。就12306一家就用了:简单数字——数字加字母——加减法算式——闪烁变形字母(动态码)——中间添加干扰线的变形字母——图形验证码。然而以上真么多种本质还是字符识别的变种,只是难度、考核方式不同。最近这种验证逻辑是图像识别,人能够识别图像里表达的社会含义,而机器图像识别的水平还不高。#但似乎这个对人来说,也是个难题。#
目前网上也有人提出了一些暴力破解的办法:
安全从业人士:“12306严重有581种图库,但甚至5800种对于机器来说都不是困难的,只要能够足够的耐心,把所有的图片都刷出来并加上备注,暴力破解很容易。”
另一位业内黄牛表示:“一个更简单绕过验证的办法是,去一些人工成本较低的地区,雇一些人专门刷验证码,其他的流程则交给机器。”
所以12306这种图库验证为了提高安全性,需要:1.让图更难看懂2.不断补充更新图库。前者用户体验不佳,后者是个重运营的累活。
再来说说极验,玩法是:像解锁手机一样,用户拖动按钮到适当位置完成拼图即可完成验证,平均验证时长仅需1.82秒。
背后验证逻辑是:后台提取上百个行为特征,包括拖动位置、拖动速度等显性特征,和服务器的数据交换等隐性特征,以及一些随机性特征。通过极验的多重行为特征判别模型,使得后台能够区分出“人”与“恶意程序”。
其实我在试用极验的时候,也有好几次才通过的经历#也有误伤#。
极验告诉虎嗅,现在每天处理1.5亿次验证。现在使用了极验的团队也不少,新浪博客 、PandaTV、PPTV、斗鱼、音悦台、简书、威锋网等。我也很好奇极验能不能破解,向度娘搜索“破解极验”,也出来10万个结果,技术论坛里也有人给出了一些步骤方法,不过我不太懂技术,感兴趣你可以去试试。关于这个问题,极验给我的回复是,他们会机器学习:
目前网上确实有很多宣称能破解极验的源码,但是实际拿代码跑了之后才发现全是被封禁。这是因为首先破解极验需要进行行为模仿,如今极验建立超过200多种的行为特征库,这给尝试破解的人带来很大的难度。其次在于极验的变动策略,在尝试破解时,可能第1、2次能通过,但是一旦触发了极验的系统封禁策略,极验会立即全网更新,将这种破解模式纳入“病毒库”。
举个栗子,在一次由发起的机器“进攻”中,请(攻)求(击)频率达到一个小时十万次,最后通过只有1033,还包括一些正常用户。
用户体验VS验证安全,两难怎么办?跳出来
2012年吴渊从武大遥感测绘信息国家重点实验室#是个很厉害的实验室#辞职,出来创业做极验。初见吴渊,我感受到了创业者群体的特有气质,反应快,人身上透着一股兴奋感,对很多其他创业相关的点子都能很快有很多想法。
“在创业前,我在武大国家重点实验室工作,平时接触图像识别和机器学习比较多,同时我自己也会捣鼓一些网站来玩。没想到我不管怎么修改验证码,都还是会被恶意发小广告、恶意注册,每天要消耗不少时间在删除这些垃圾数据上面,后来我把验证码修改得我自己都不认识了,但还是会有机器程序来进行破坏。我自己调用一些公开的图像识别库进行识别,正确率竟然在85%以上,而这个时候,正常用户反而难以快速正确辨认数字。”
这里提出一个问题:用户体验和验证安全的两难。而一再牺牲用户体验(字符都扭得你看不懂),去提高安全验证系数的字符验证,仍然赶不上机器学习的速度,最后一头好都没捞着。从认别字母到算数学题,再到12306的选图,其本质都是字符识别的范畴。在有限的题库中,利用机器难以识别图像的缺点,识别人类的行为。但图库有限,机器人虽然读不出来,但可以死记硬背。
打个通俗易懂的比方,安全验证就是数学考试,字符验证是从题库里选题,把题目出得很难让机器人不会做;而行为验证是先把答案先告诉你,但老师看你的解题的过程,来判断你是不是人。
极验创始人吴渊表示:“字符验证码需要左右脑协调工作才能完成验证过程,所以用户在面对字符验证码的时候会觉得很累。我们曾找研究机构做过相关的A\B测试,字符验证码的平均耗时需要15s之久,有25%的用户都要不停的刷新验证码以找到一张容易辨认的字符。甚至一些用户看到有验证码,就直接放弃了原有的参与意愿,很多用户就这样流失了。这样市场和运营在前面拼命吸引用户,到后来用户却因为这个流失,十分可惜。”
下面是严肃正经的极验产品逻辑:
对恶意程序来说,即使模仿用户拖动滑块抵达正确的位置,也是会被封禁的,因为极验的安全体系并不将能否完成答案作为辨别体系的唯一标准,而是一套全面的数据检测。主要有三点:
第一,多重行为深度判别算法。极验通过收集用户行为、网络环境、设备型号等信息,来对用户的真实性进行检测,能有效封禁恶意程序的请求。尤其是用户行为检测,是极验安全模型的核心。极验目前已构建多个维度超过200个用户行为特征,来访者的每一次行为轨迹,都经过层层模型判断,在150ms的时间内给出判定结果。
第二,云端安全,实时更新的防御库。我们可以看到杀毒软件的发展进程,都由本地单一的病毒库变为现阶段的“云查杀”。极验也是将验证安全搬到云端,所有的验证辨别都接入极验的“验证云引擎”,大大提高验证的安全性和处理的及时性。具体说来,以前传统验证码出现被破解,只能大动干戈的重写所有的代码,而如今接入极验后,所有的变动都在“极验云引擎”处理,极验40多个静态特征和超过160个动态特征随时可以处理潜在的验证危险,一旦遇到可疑行为,全网动态更新。
第三,包含语意逻辑的多种验证形式。极验依托数据挖掘、机器学习,能在短时间内建立相应行为验证的模型库,利用这些基础技术支撑,极验研发出多种包含图像理解、语言逻辑等在内的验证形式,丰富了验证产品,根据用户的使用场景来选择不同的验证形式。
ToB,也要琢磨怎么盈利
其实全中国验证这件事的风口浪尖,都在12306身上了,两年前被吐槽得最多的就是12306被黄牛刷票。这种万众聚焦的档口,谁上一定赢得绝对关注,但是没做好换来的可能就是“等着被玩坏吧”。
极验现在拿了两轮融资,天使轮是杭州天使湾基金的几百万人民币,A轮融了IDG几百万美元,现在正在接触B轮。
盈利模式分为两种:付费和广告。
七月份设置收费版本 ,开始引导用户付费 ,个人版49一个月,企业版每月399,旗舰版2699#价格也不高#。付费比例30%,预计明年年初能达到收支平衡。
广告九月份才开始做 ,小网站都倾向免费,企业用户付费还是比较积极的。付费的好处在于:更安全、能有更多定制化接口,有没有广告可以自己选,广告还能定制图片。
极验在广告领域的尝试,最大的收获是能平均达到6%的点击率,这一高转化是因为100%的用户抵达率,每一次展示,都能保障用户真的能看到。目前已经在免费用户站点随机投放,为了照顾用户体验并没有一直给免费用户推。
对于个人站长、兴趣论坛、地方活动网站等付费能力不强但是有验证安全需要的用户,极验会通过广告推送来补贴部分运营费用,从而永久提供免费的验证服务。
最终要颠覆自己,验证于无形
之后的重点,极验表示还会在安全领域继续深入,而且最后的目标是去验证码化。
具体来说就是将验证模块去掉,不用滑了,通过他其他行为判断是不是人,将行为验证的潜力发掘地更深入。
极验的产品总监陈国庆表示:“任何产品都和它所处的技术背景有关系,字符验证码在诞生初期是很伟大的,因为那个时候的技术确实没办法认识字符,诞生后随着ocr 技术的发展,它的实用性不大。相信随着技术的发展和人为的努力,是可以去掉表面的验证模块,验证于无形。”
#所以你们是打着验证码的幌子,修炼行为验证的内功?
同为创业公司也想求报道?(请猛戳这里)只要你们对产业正在产生影响、或未来可能有颠覆效应,就都是我们的关注对象——无论大小。