扫码打开虎嗅APP
今天,人工智能领域发生了两件大事:百度开源人工智能系统代码,雅虎送出13.5TB用户数据。
像是说好的一样,年末年初,谷歌、Facebook、雅虎、百度等科技大佬纷纷开始在人工智能领域拼命圈地,送代码,送数据,简直停不下来。他们到底有什么野心?
开源关键技术圈定开发者社区
百度在国内水深火热,在国外倒是惊天动地了一番。百度硅谷 AI 研究所 (SVAIL) 今天开源了百度的关键人工智能 (AI) 软件 WARP-CTC,希望通过机器学习社区继续提升 WARP-CTC。
WARP-CTC是干什么的呢? CTC结合了多个不同的神经网络设计,以处理不完美的数据集,而百度的正是基于CTC方案开发了自己的系统WARP-CTC,其语音识别技术在适应中国方言上有很大进步。百度表示,Warp-CTC所需的存储空间较小,比普通CTC速度快数百倍。
百度在人工智能上的布局已经越来越明显,14年,百度首席科学家吴恩达接受华尔街日报采访,那时的报道中就提到百度曾计划投资 3 亿美元招聘 200 人建设人工智能中心。吴恩达还说,百度中心的建模速度比他以前任何时候都要快,对此他表示满意。目前百度的机器学习团队主要攻关的是语音识别,另外也兼顾一下计算机视觉的研究。
那么,百度为何开源自己辛苦研发的技术? 据新浪科技报道,百度希望使“端到端的深度学习变得更简单、速度更快,加快研究者的进度”,而“此前的代码在训练端到端网络时速度太慢”。这当然只是漂亮的说辞,其实,从去年11月起,谷歌、Facebook也相继开源了自己的人工智能技术,而他们的目标是共同的:吸引第三方开发者,让自己的技术成为主流。百度如果不开源,那么开发者很可能竞相学习竞争对手的技术,百度的技术则会边缘化。
去年11月,谷歌开源人工智能系统TensorFlow,也就是谷歌的第二代机器学习系统,它的速度是第一代系统DisBelief的两倍。有媒体评价说,TensorFlow相当于人工智能领域的安卓。到了12月,Facebook公开Big Sur人工智能硬件架构,这是一种易于组装的计算机服务器,可以运行最新的人工智能算法,此举也标志着人工智能领域的开源从软件迈向硬件设计。
当然,谷歌、Facebook、百度都不是慈善机构,开源的目的,一方面是“集思广益”,把科研众包出去,减少经费压力;另一方面,一个平台使用的人越多,就越容易形成自己的社区,最经典的例子就是安卓借助广大开发者的力量夺回了手机市场。
公开数据收买研究员
同一天,雅虎送出的是13.5TB的用户数据大礼包,这里面装的是将近2000万匿名用户在浏览雅虎新闻时产生的数据,甚至细致到鼠标的每一次点击、悬停和滚动。雅虎此前曾56次发布这样的数据,但这次的数据集规模尤其庞大,相当于美国国会图书馆数据的三分之二。
海量数据同样是机器学习必不可少的食粮。通过分析这些数据,计算机就能够学习到用户的许多习惯,比如从雅虎的角度来说就可能是:什么样的标题更加吸引点击?什么样的文章能让人长时间去细读?而在雅虎此次公开数据之前,研究者很少有机会能够接触到真实反映用户习惯的数据。
根据TechCrunch报道,加州大学圣地亚哥分校的电器与计算机工程教授Gert Lanckriet表示,如此大规模的数据,“能够直接并极大地推进人工智能、机器学习、以及大数据应用技术的研究。”
但其实,公布用户数据以期改善算法的做法其实并不新鲜,AOL、Netflix也曾公开用户数据以期从公司外部获得改善产品的灵感,Netflix甚至提供一百万美元奖金,明码标价换取算法优化。不过雅虎似乎还有别的打算。
虽然没有明说,但雅虎这两年人才流失的窘境早已是路人皆知,因此,它对在像人工智能这样的高新技术领域吸引人才表现得十分饥渴。卡内基梅隆大学计算机科学院院长摩尔表示,科技公司不论有多少人才,老板永远都觉得不够,他们总是觉得想做的事情还差人手。
除了公开数据以外,雅虎也通过开源算法来吸引开发者。根据新浪科技,这些算法用于对流数据的计算和网页爬虫,处理网站上的结构化数据。
人工智能界的“圈地运动”本质上是“圈人”,谁能赢得技术人才以及开发者社区,谁就能掌握话语权。
然而,也有开发者在谷歌宣布开源TensorFLow的时候就表示:“人工智能的发展还是初级阶段。好比处于原始社会的医学,武当的技术当主治医生。谷歌一个公司不可能主导新技术的发展,人工智能还需要全世界几代科学家的共同努力。”从这一角度来看,在人工智能领域,圈地进行得再热闹,一家通吃的现象或许暂时还不会出现。