12306图片验证12小时内被破解,验证安全的出路到底在哪?

phpde1 10年前

12306图片验证12小时内被破解,验证安全的出路到底在哪?

03 月 16 日上午,12306 网站更新了自己的验证码形式,将原有的验证码从英文字符变换到 8 张小图片,用户必须根据问题提示来点击选中正确的图片,然后才能预定车票。紧接着,各路媒体开始发稿,《12306 官网放大招:启用图片验证码所有抢票软件将失效》《12306 官网推出全新图片验证码抢票软件将失效》等新闻层出不穷。作为一个程序员,看到这样的标题,十分困惑这些媒体是怎么用上帝视角这么直接断定抢票软件将全部 失效的,可以想象一大波刷票公司正准备捋起袖子干活就直接听到 12306 宣布自己胜利了。当然,我们反对一切的黄牛党,本文只是谈谈验证码技术。

重技术的验证码是一场拉锯战

当我们谈论验证码时,不免地提到两个人。第一个是计算机科学之父、人工智能之父艾伦.图灵,图灵对整个计算机科学的贡献和意义在此就不用展开, 之前所以提到他,是因为他提出的“图灵测试”,这一理论第一次提到将电脑和人区分开。第二个必须提到的是卡内基梅隆大学的路易斯·冯·安,他在 2002 年第一次将扭曲的文字用于区别人和计算机,就是我们现在普遍见到的英文字符验证码,后来他将验证码公司 Re-CAPTCHA 卖给了 google。

现在 12306 同样也用了扭曲的英文字符,但是却抵挡不住黄牛党和刷屏软件机器识别,是因为在这近十年计算机科学技术的发展,OCR(Optical Character Recognition,光学字符识别)等技术发展的已经十分成熟,识别扭曲英文字符并非难事,根据现有实验报告统计及真实调查,普通的验证码的破解率基 本在 75% 以上。说到这里我们看看百度和腾讯是怎么解决的。

12306图片验证12小时内被破解,验证安全的出路到底在哪?

腾讯将验证码图片背景直接贴上真实图片做干扰,而且颜色采取的近似值。

12306图片验证12小时内被破解,验证安全的出路到底在哪?

被称为百度神兽的九宫格汉字验证码,利用中文的博大精深,在防刷上有较大的提升,但是对人的用户体验上就略差了。

12306 的验证码出发点是安全?用户体验?

那么,我们来谈谈 12306 的图片验证码到底是个什么鬼。12306 所采用的图片式验证码的验证形式,并不是什么首创,早在一些游戏网站上也采用过这样的验证形式,请看下图。

12306图片验证12小时内被破解,验证安全的出路到底在哪?

这把人都能吓懵的验证码还真出现过,而且很不幸的是,上了一阵子之后就被破解了。

现在 12306 推出的图片验证码,首先从用户体验上来讲,并没有比之前的文字验证码好用多少。虽然用户不再依靠键盘输入,但是面对小且密集的 8 张图片,选出“所有”正确的图片,那必须把所有图片仔细看一遍,这一过程带来的不确认型其实是同用户分辨G和 9 和心里过程是一样的。不信你瞅瞅下面哪些是邮票?重要的是这一过程中带来很大的不确认性,心理负担略重。         

12306图片验证12小时内被破解,验证安全的出路到底在哪?

用户体验这个标准,不好衡量,我们再来谈谈安全性。从一开始变成图片验证形式,事情就不会像今天新闻标题说的那样,“刷票软件将全部失效“(我 本着好奇的态度,搜了一下相关新闻,基本上从 2012 年起,每次 12306 更换比较明显的验证码,媒体都是这样报道的),为什么呢?前面我们讲到成熟的 OCR 技术导致英文字符验证码很难起作用,事实上,图像识别的发展也是趋于成熟。所以,12306 的图片验证码被迅速破解也不是什么难事,反而将门槛降低。

下面的具体破解举例引用知乎用户王猫猫在问题“如何评价 12306 的最新版验证码?”下的回答。

12306图片验证12小时内被破解,验证安全的出路到底在哪?    

(此图来自知乎用户王猫猫的回答

直接将图片处理后丢入 google、百度的识图接口,返回的数值让人惊讶(第二张图居然能精准识别到是沙县小吃?)。后来根据王同学提供的代码,我进行了下一步的处理工作,再 次利用第三方软件识别中文字符,然后将字符与图片字符进行匹配,之后选择图片。整个测试图片大概 200 张(只是模拟了登录,没有去刷掉一整车票),通过率在 85% 左右。所以,仅仅是技术爱好者动用一些公用接口就轻松能识别图片类容,而且一旦识别后,还可以将这张出现过的图片存库,再次出现就更加快速准确的定位了。 暂且不谈图像识别和机器学习这样高大上的破解方法了。

图片验证码之所以不安全,是因为目前的图片识别技术也是相当的成熟。12306 这些图片如果是人工标记,无疑是将自己摆到一个愚公移山的悲壮位置;如果是机器识别,也一样是可以被识别内容,即用图片内容的识别作为验证核心将毫无意义。

从 12306 这次更新来看,12306 的验证思路,还是在玩已经过时的技术,对验证的视野和理解并不是很透彻,才会落到上线不到一天就被破解的尴尬局面。当然,12306 有面对黄牛的进行创新的勇气是可嘉的,但是方向走错了,进行购票流程上的全面优化才能让问题得到最终的解决,将赌注放在验证码身上,目前看来不太现实。

走在前面的依然是 Google

那么,验证安全的终极奥义是什么呢?我们可以回顾一下去年的关于 google 的 No-CAPTCHA(No-Capthcha 是 Re-Capthcha 的子项目)的文章,google 提出了一个概念叫 human behavior analysis,大意是将用户的行为做为判断人与计算机的准则。这个理念提出的意义在于,不再依靠图灵测试即单一的答案来判断人机,而是通过用户一系列 的上网行为来确定访问者是人,还是机器。但是从 google 目前的前端代码层和具体流程来看,目前只是试探性的的发展,如果这个理念能够实际操作并完善,那么验证码的安全性将提高的一个史无前例的高水平,至少破解 门槛不会低到仅仅调用一下公共接口就瞬间破解。

来自: 虎嗅网