一个搞开源，一个送数据，百度和雅虎在AI上有何野心？-虎嗅网

今天，人工智能领域发生了两件大事:百度开源人工智能系统代码，雅虎送出13.5TB用户数据。

像是说好的一样，年末年初，谷歌、Facebook、雅虎、百度等科技大佬纷纷开始在人工智能领域拼命圈地，送代码，送数据，简直停不下来。他们到底有什么野心？

开源关键技术圈定开发者社区

百度在国内水深火热，在国外倒是惊天动地了一番。百度硅谷 AI 研究所 (SVAIL) 今天开源了百度的关键人工智能 (AI) 软件 WARP-CTC，希望通过机器学习社区继续提升 WARP-CTC。

WARP-CTC是干什么的呢？ CTC结合了多个不同的神经网络设计，以处理不完美的数据集，而百度的正是基于CTC方案开发了自己的系统WARP-CTC，其语音识别技术在适应中国方言上有很大进步。百度表示，Warp-CTC所需的存储空间较小，比普通CTC速度快数百倍。

百度在人工智能上的布局已经越来越明显，14年，百度首席科学家吴恩达接受华尔街日报采访，那时的报道中就提到百度曾计划投资 3 亿美元招聘 200 人建设人工智能中心。吴恩达还说，百度中心的建模速度比他以前任何时候都要快，对此他表示满意。目前百度的机器学习团队主要攻关的是语音识别，另外也兼顾一下计算机视觉的研究。

那么，百度为何开源自己辛苦研发的技术? 据新浪科技报道，百度希望使“端到端的深度学习变得更简单、速度更快，加快研究者的进度”，而“此前的代码在训练端到端网络时速度太慢”。这当然只是漂亮的说辞，其实，从去年11月起，谷歌、Facebook也相继开源了自己的人工智能技术，而他们的目标是共同的：吸引第三方开发者，让自己的技术成为主流。百度如果不开源，那么开发者很可能竞相学习竞争对手的技术，百度的技术则会边缘化。

去年11月，谷歌开源人工智能系统TensorFlow，也就是谷歌的第二代机器学习系统，它的速度是第一代系统DisBelief的两倍。有媒体评价说，TensorFlow相当于人工智能领域的安卓。到了12月，Facebook公开Big Sur人工智能硬件架构，这是一种易于组装的计算机服务器，可以运行最新的人工智能算法，此举也标志着人工智能领域的开源从软件迈向硬件设计。

当然，谷歌、Facebook、百度都不是慈善机构，开源的目的，一方面是“集思广益”，把科研众包出去，减少经费压力；另一方面，一个平台使用的人越多，就越容易形成自己的社区，最经典的例子就是安卓借助广大开发者的力量夺回了手机市场。

公开数据收买研究员

同一天，雅虎送出的是13.5TB的用户数据大礼包，这里面装的是将近2000万匿名用户在浏览雅虎新闻时产生的数据，甚至细致到鼠标的每一次点击、悬停和滚动。雅虎此前曾56次发布这样的数据，但这次的数据集规模尤其庞大，相当于美国国会图书馆数据的三分之二。

海量数据同样是机器学习必不可少的食粮。通过分析这些数据，计算机就能够学习到用户的许多习惯，比如从雅虎的角度来说就可能是：什么样的标题更加吸引点击？什么样的文章能让人长时间去细读？而在雅虎此次公开数据之前，研究者很少有机会能够接触到真实反映用户习惯的数据。

根据TechCrunch报道，加州大学圣地亚哥分校的电器与计算机工程教授Gert Lanckriet表示，如此大规模的数据，“能够直接并极大地推进人工智能、机器学习、以及大数据应用技术的研究。”

但其实，公布用户数据以期改善算法的做法其实并不新鲜，AOL、Netflix也曾公开用户数据以期从公司外部获得改善产品的灵感，Netflix甚至提供一百万美元奖金，明码标价换取算法优化。不过雅虎似乎还有别的打算。

虽然没有明说，但雅虎这两年人才流失的窘境早已是路人皆知，因此，它对在像人工智能这样的高新技术领域吸引人才表现得十分饥渴。卡内基梅隆大学计算机科学院院长摩尔表示，科技公司不论有多少人才，老板永远都觉得不够，他们总是觉得想做的事情还差人手。

除了公开数据以外，雅虎也通过开源算法来吸引开发者。根据新浪科技，这些算法用于对流数据的计算和网页爬虫，处理网站上的结构化数据。

人工智能界的“圈地运动”本质上是“圈人”，谁能赢得技术人才以及开发者社区，谁就能掌握话语权。

然而，也有开发者在谷歌宣布开源TensorFLow的时候就表示：“人工智能的发展还是初级阶段。好比处于原始社会的医学，武当的技术当主治医生。谷歌一个公司不可能主导新技术的发展，人工智能还需要全世界几代科学家的共同努力。”从这一角度来看，在人工智能领域，圈地进行得再热闹，一家通吃的现象或许暂时还不会出现。

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

一个搞开源，一个送数据，百度和雅虎在AI上有何野心？

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜