扫码打开虎嗅APP
虎嗅注:11月25日,数千位百度工程师齐聚中关村软件园国际会议服务中心,用一整天的时间听李彦宏、王劲、吴恩达等高管讲技术如何成就了今天的百度,展望百度打算在未来如何推动技术的进步。在座的工程师均通过内网报名加“摇号”获得席位,连过道都摆满了小马扎,场面十分热烈。百度众高管与工程师以同学相称,李彦宏称他们是百度的“核心资产”,自己是大家的粉丝。会议并不对媒体开放,虎嗅君以“爱好者”身份进入会场,摘录部分内容以飨读者。
李彦宏讲话摘要:技术是一种信仰、移动是一种思维
各位同学,欢迎大家来到百度首届技术节,这是我们第一次办技术节,但是对于百度来说对于技术的重视可以说可以说是源远流长。从百度成立第一天起我们就非常重视技术,百度招的前五名员工全部都是技术出身,从刘建国到雷鸣到崔姗姗到郭耽再到王啸,都是学计算机出身。
早期我们对技术的重视让很多其他公司不是很理解,比如在2000年左右刚刚开始做的时候,我跟我的工程师都讲,我们的搜索引擎必须在一秒内响应,在一秒内出结果。那个时候大家觉得很奇怪,等三秒不是一样OK吗?因为其他的门户使用搜索引擎都是三秒钟出结果。我还跟他们讲,稳定性必须要有99.9%甚至更高,大家也觉得不理解,十次有一次不出结果也OK吧,那时候大家是这样的想法。后来随着我们不断的执着的去强调必须一秒内出结果,必须99.9甚至99.99%,不仅业内理解了,我们的工程师理解了,在外界的普通用户当中他们也理解了。后来他们就说装一台电脑联网的时候要先上百度看看,上去了说明网通了,上不去就说明网不通,这就是技术的力量、技术的影响力。
实际上,现在比以往任何一个时候技术都更能够对人们普通的生活产生巨大的影响。最近几年比如像人工智能这个技术发展非常快,我们越来越多的看到无论是计算机视觉也好、图像识别、声音的识别,各个方面因为人工智能、因为深度学习各个方面技术的提升,它的效率、它的准确率、它的可用性都在不断的提升。
最近一个月前,Facebook的扎克伯格来的时候,我们又谈起了深度学习。他说两年前因为你跟我说深度学习对于百度各方面业务都有明显的提升,所以我才开始重视深度学习,才把纽约大学的Yann Lecun招到Facebook成立了IA Lab。可见,百度的技术影响力不仅在业内,不仅在中国,在世界上也是非常有影响力的。
我们这批人对技术有一个信仰,我们不仅仅把它当做一个工具,我们更相信技术可以改变中国,技术可以改变世界,而百度可以改变技术。所以我来到这里很想表达一个意思,就是我是你们大家的粉丝,你们的每一次的技术创新,你们每一次把自己新的技术应用到产品上,我都非常的愿意去试用,去体验,去给你们提改进的意见,去给你们提更好的要求。
百度高级副总裁王劲讲话摘要:剑指未来
如果说移动互联网的关键是连接一切,那么在大数据时代的关键就是智能化一切。在移动的时代我们说连接一切,百度在做什么?百度在做人与服务的连接,腾讯在做人与人的连接,阿里在做人与商品的连接,很多新兴的物联网公司他们在做物与物的连接。这些公司的人们共同的努力将会把越来越多的设备连接上网。有人预测,在2020年连接上网的设备将达到260亿,我认为这个数字被远远低估了。还有人预测到2020年人均的上市设备会达到1000个,这个数字非常可观。但从过去历史来看,互联网的发展速度总是习惯性地被低估。
我们今天谈到的人工智能是基于大数据的人工智能,我们今天谈到的人工智能不仅仅是在数据中心里用很多高性能的GPU、CPU搭出来的DNN模型。这里所说的人工智能还包括了那些分散在每个终端的,智能终端,由每个智能的神经源共同组成了一个庞大的智能的系统、智能的网络,这代表了互联网发展的方向,这带给我们全新的机会。
百度和谷歌都在做无人驾驶汽车,无人驾驶汽车需要什么样的技术呢?它需要视、听、说、感知和控制,视是图象识别、听是语音识别,说是语音合成,感知有非常多,GPS感知,汽车的平衡等等;汽车还需要有操控能力,无人驾驶汽车需要一个非常优秀的大脑。今天这些技术都已经存在,并且可用,然而为什么实际道路环境下,无人驾驶汽车仍然非常罕见呢?这是因为这些技术存在的时间还不够长,还不够成熟。虽然谷歌的无人驾驶汽车在低速情况下行驶超过1万小时,但这仍远远不足。在人命关天的事情上,大家都做得更稳健一点,但这个潮流是不可阴挡的。
在展望可穿戴设备、智能家居和智能机器人之后,王劲说:“人工智能将大大的改变我们的生活,改变我们的互联网。在未来的十年里,在即将到来的大数据时代,互联网将成为最重要的推动力量。”
这些年里,信仰技术的百度做了什么?
王劲说道:
四年半前加入百度前夕,我问李彦宏:百度在技术上的投入占比是多少?当时他非常骄傲的告诉我是11%点几,那个时候互联网整个行业的技术投入占比平均值是7%,当时我听了非常高兴,百度是一个重视技术的公司。今天我尤其高兴,经过这些年的努力,在营收大大提高的基础上,百度的技术投入占比达到了一个新的高度,占14%。财报显示,今年上半年百度是技术投入占比最高中国的公司。下面,我们与世界级公司比比看,亚马逊是非常重视技术投入的公司,其技术投入占比是10.8%;微软是13.4%;四年半前谷歌的这个数字是13%多一点,之后一直保持在13%到14%之间。现在,我们已经超过了谷歌。
百度的技术模块
王劲将百度的技术概括为五个模块并将其比喻为一柄“宝剑”:
中间的是Core Technologies,即基础架构、NLP、运维、数据中心,以及定位和地图技术。这些核心技术的大多数最终用户无法直接感知的,但它们实实在在地影响或决定了我们的核心竞争力。
两边是两个Cutting Edge Technologies。未来五年内,这两个技术将更深刻地影响人机交互方式,因为超过50%的需求将使用这两项技术,即语音和图像来表达。
剑锋上是四个Leading Technologies。入选leading technologies的标准,是在这个技术方向上要做到中国第一、全球领先。
剑格上的是四个平台级技术,即安全、质量保证、信息化和平台化技术。这些技术对整个技术平台和百度的业务起到了支撑和保护作用。
当“大宝剑”的全貌以动画幻灯的形式展现在大屏幕时,在场的工程师们掌声不断。
其后,王劲进行了一系列技术层面的细节描述:
在人工智能方面建成了世界最大规模的深度学习的集群,这个NDD网络集群有万亿的参数,支持千亿的样本和千亿特征训练;
大数据方面,去年12月百度成立了大数据部,在将近一年的时间里做了很多工作。到今天,百度能够存储和管理的数据量已经达到1000PB,今天处理量也达到100PB,单次异构查询就达到100TB,这些都是非常高的指标。我们还建成全球第一个通用的推荐引擎,我们也把我们的大数据预测平台开放给中国的合作伙伴们。
搜索引擎是百度的看家本领,在中国市场占有绝对领先的份额。我们的变现能力在业界首屈一指,在CPM上我们远远领先于国内的竞争对手。人工智能对搜索技术和变现能力的提升起到决定作用。不仅如此,依托公司移动互联网战略,我们在移动变现的能力上遥遥领先国内外竞争对手,这个成绩很好地支撑了公司股价。百度是世界上最早大规模使用深度学习技术来提升变现能力的,最主要的是应用于CTR预估系统。在这些技术上面,我们有很多值得骄傲的创新。
语音和图像,这两个代表未来的技术我们到底做的怎么样?今天,百度已经拥有了中国领先的语言识别技术:在静态环境中,普通话识别率从92%提高到为95%。大家知道,人类的正常交流,是在有一定噪音的情况下,达到98%的准确率。今天,机器语音识别的准确率还没有达到人类正常交流的水平,但是我们正在努力,通过DNN等技术一步一步的逼近这个临界点。
我们建立了统一的资源集群管理系统,系统的CPU利用率达55%,在整个业界处于非常领先的水平。很多国内外的竞争对手,其CPU利用率大部分在30%左右,而我们55%的CPU利用率是业界的标杆。我们还拥有全球最大的Hadoop集群,单集群规模达到1.3万台服务器。在中文领域,百度的NLP技术一直独步全球。在机器翻译方面,我们在28个方向超越了主要的竞争对手Google。
王劲说:
“数据中心技术是互联网公司的核心技术。今年6月底,百度在山西阳泉建成了一座美伦美奂的数据中心,这是中国最先进的数据中心,也是迄今为止规模最大的。数据中心拥有非常复杂的技术。我们把很多创新型的技术用在这里。 评估数据中心的先进性有很多指标,其中最、重要最客观指标之一就是PUE,也就是用电的效率。阳泉数据中心的PUE是中国最好的。数据中心里的GPU服务器,用来做深度学习训练,和普通CPU服务器相比,提升效率34倍。”
最后百度首席科学家吴恩达也发表了讲话,其中他分享到百度在深度学习领域的最新进展——机器读图。目前百度深度学习技术已成功地实现让机器将图像内容生成自然语言的描述性句子或段落,这可以说是人工智能领域的一次技术飞跃。吴恩达还透露百度将启动“AI(人工智能)人才计划”,每年会挑选多位AI研究员,赴美在百度硅谷实验室工作并学习6个月,期间可以深入了解人工智能和深度学习,参与开发前沿的人工智能技术,和美国团队交流中国团队的工作成果。
吴恩达还透露,加盟百度正是看中了百度系统的基础架构技术体系、及百度正在做和将要做的事,这让他对技术的未来感到更有信心。
尾注:其实百度在这个学堂里还透露了某些正在研发的技术产品,但囿于规则,虎嗅也不能对外讲了……能说的是:真的还蛮DIAO的……#这么吊人胃口的虎嗅君真是够了#