扫码打开虎嗅APP
图片来自海洛创意,未经允许,请勿转载。
买火车票正在从彻夜排队的力气活,进化成识别验证码的智力活。
“请点击下图中所有的白百合”、“请点击下图中所有的博斯普鲁斯海峡”、“请点击下图中所有的菊花”……尽管已经有大部分被认定为网友PS,但难以认对的验证码,还是让人想说“妈不是我不想回家,是这个验证码我真的点不对啊!”
从今天早上9:30左右开始,我尝试在12306上购买从北京到青岛的火车票,在经历了验证牛仔裤+青菜、蛋糕+瓜子、海带+窗户、抽屉+火锅,中间还过掉1张发电机的识别图后,终于验证成功,此时我泪流满面~
“请点击下图中所有的青菜 牛仔裤”,如图所示,我选了带铁路标示的图片,但被认定选择错误,我觉得可能是第一排左边第二张不是牛仔裤,这明明是牛仔拉链。。。
“请点击下图中所有的蛋糕 瓜子”,小伙伴们看到我的选择说,“你确定第二排左边第三张是蛋糕嘛?”,但感觉很神似蛋糕。。。
“请点击下图中所有的海带 窗户”,这张实在不知道错在哪里,在海边长大,海带怎么着也是认识的。。。
艾玛,最后一张终于猜对了。
有网站统计说,12306网站的购票验证码共有581种,按照要输入两个关键词的规则,排列组合多达336980种。一次性输入准确的比例为8%,两次输入准确的比例为27%,三次甚至4次以上输入准确的比例为65%(我果然在平均数之内)。
如果一次性输入成功的平均用时为5秒的话,按照热门车票“秒光”的情况计算,每输错一次验证码,就意味着当次购票成功率下降80%左右。根据统计,目前最容易识别的验证码是自行车、人民币和老虎,最难识别的为七星瓢虫、经筒、喷雾器,而其它的如鱿鱼、章鱼,盒子、收纳箱等也很容易让人分不清楚。
验证码复杂,意在防刷票,但然并卵
从最开始的数字到数字加字母,再到加减乘除,再到现在的图片识别,12306的验证码一步步升级,渐渐达到人眼无法辨别的高度。
其目的也显而易见,防刷票,防黄牛。腾讯科技采访了业内人士,给出一些解答:“12306并不是没有画质高的图片,但故意选用很难识别的图片,目的就是让人类都难以识别,这样机器学习就会非常困难,虽然技术上可以操作,但识别率会很低。”
但在图像识别专家的眼中,这只是增加了机器辨别难度,但仍可以进行破解:
581种甚至5800种对于机器来说都不是困难的,只要能够足够的耐心,把所有的图片都刷出来并加上备注,暴力破解很容易。
可以让机器提前记住答案,在需要验证码的时候背答案就可以,现成的工具很容易就能做到。
如果12306不加强自己图片的数量,不加强图库的智能化,那在春运期间黄牛很容易就能通过技术手段抢到票。
此前有虎嗅作者对12306验证码迅速被破解做出过分析,12306图片验证12小时内被破解,验证安全的出路到底在哪?,文章直白指出:12306的验证思路,还是在玩已经过时的技术,对验证的视野和理解并不是很透彻,才会落到上线不到一天就被破解的尴尬局面。当然,12306有面对黄牛的进行创新的勇气是可嘉的,但是方向走错了,进行购票流程上的全面优化才能让问题得到最终的解决,将赌注放在验证码身上,目前看来不太现实。
最后看看网友们为12306出的题(为网友PS,并非真的验证图片),图片来自网络:
请点击下图中所有的相声演员:
请点击下图中所有的杨臣刚:
请点击下图中所有的中国名胜: