正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2019-11-16 17:42
千呼万唤始出来,英特尔发布AI芯片

本文来自微信公众号:硅星人(guixingren123),作者:杜晨,编辑:Vicky Xiao,题图来自:视觉中国


美国时间11月12日周二,英特尔终于正式宣布了首个针对复杂深度学习神经网络处理器:Nervana NNP。


全称 Nervana Neural Network Processor,这是英特尔推出的第一款面向数据中心客户,针对复杂深度学习的专用 ASIC 芯片。(用更容易理解的方式来讲:Nervana NNP 就是英特尔版本的 TPU。)


芯片的命名来自于英特尔在 2016 年所收购的神经计算公司 Nervana。


在周二举行的英特尔人工智能峰会上,该公司副总裁兼人工智能产品事业部总经理 Naveen Rao(原 Nervana 创始人兼 CEO)表示,“随着人工智能的进一步发展,计算硬件和内存都将到达临界点。如果要继续取得巨大进展,专用型硬件必不可少。”


他进一步指出,采用 Nervana NNP 之后,人工智能将在系统层面上变得更加先进,推动从信息技术时代的下一次革命:从“数据到信息的转换”发展到从“信息到知识的转换”。



准确来讲,Nervana NNP 并不是一枚芯片,而是一个芯片家族,一个全新的架构。针对极复杂的深度神经网络,从训练到推理,Nervana NNP 都有不同的产品,适合不同需求的数据中心用户。


家族里的 Nervana NNP-T1000(以下简称 NNP-T)是神经网络训练处理器,Nervana NNP-I1000(以下简称 NNP-I)则面向推理做了巨大优化。


Nervana NNP 芯片家族有三个最主要的亮点:计算密度更高,能效更好,采用英特尔架构+开源的全堆栈软件支持。


英特尔方面宣称,Nervana NNP 芯片家族的运算密度和竞品相比实现了3.7倍的运算密度提升。至于能效方面,特别是在 NNP-I 神经网络推理芯片上,单枚的能耗仅15W。


目前神经网络技术发展突飞猛进,模型的深度越来越大、节点数越来越多,单一处理器已经很难以可以接受的效率完成训练工作,因此对处理器的运算密度、可扩展性以及能耗方面的要求越来越高。


在训练方面,英特尔展示的数据显示,NNP-T 在 ResNET50 和 BERT benchmark 中能够取得95%的准确率。


由于采用了英特尔先进的内存管理和通讯技术,NNP-T 可以扩展到32甚至更多枚芯片的集群计算架构,并且每一枚的数据传输效率和能耗都能够和单独使用时保持一致。NNP-T 在计算、通信和内存之间取得了平衡,不管是在小规模集群,还是最大规模的超级计算机里,表现都很好。


NNP-T 芯片:






搭载 NNP-T 的计算卡 Mezzanine:




就像 Google 的 Cloud TPU 大规模集群架构那样,英特尔也做了一个 Nervana POD:480枚 NNP-T 神经网络处理器,以10个机架为一个单位。由于 NNP-T 处理器的特性,能够实现在机箱、甚至机架之间实现更好的通信和配合,以近乎线性的扩展能力带来算力的显著提升。



在推理方面,NNP-I 最大的优势在于具有能效高、成本低,且其外形规格灵活,非常适合使用灵活的规格在现实世界中运行密集的多模式推理。 


NNP-I 的工作功耗大约在15W左右,它能够和数据中心企业用户自己的技术实现完美的结合,部署更快、更高效的推理计算。


英特尔面向了百度、 Facebook 等前沿人工智能客户,并针对他们的人工智能处理需求进行了定制开发。比如当 NNP-I 和 Facebook Glow 编译器结合时,可以对计算机视觉等工作负载实现显著优化,在实现高性能的同时节约更多的能源。


NNP-I 芯片:






搭载 NNP-I 芯片的 m.2 计算卡:






截至今天,除了英特尔之外,世界上领先的计算公司,包括英伟达和高通等在内,都已经推出了和 Nervana NNP 类似的神经网络处理器,比如 TESLA、Cloud AI 100 等。而早在它们之前,Google 为了满足人工智能训练需要开发了自己的 TPU。在这样的竞争环境下,Nervana NNP 的意义如何凸显?


英特尔方面透露,近年来人工智能算力的需求显著增长,企业客户对于数据中心算力的要求,每三个半月就会提升一倍。


一个不可忽视的事实是:至少在工业界,大部分公司和机构的数据中心和云计算服务,其计算基础都是是英特尔的至强 (Xeon) 处理器。推进深度学习推理和应用需要极其复杂的数据、模型和技术,因此在架构选择上需要有不同的考量。对于那些已经投入在英特尔架构上的客户来说,Nervana NNP 在架构兼容和性能优化上的优势无疑是十分显著的。


正如 Naveen Rao 所说的,人工智能的发展对专用芯片带来了前所未有的需求。除了全球领先的科技公司之外,还有许多规模稍逊的公司,业务同样涉及人工智能,但他们对于数据中心计算的模式要求是差异化的。


一个最直接的例子,就是并非每家公司都愿意支付给 Google 和亚马逊巨额云计算费用。它们可能需要在自己的数据中心里架设自有云,可能对计算量有或少、或多,以及不断改变的需求。对于这些客户,以及它们在可及性、兼容性、扩展弹性等方面的要求,Nervana NNP 目前看起来是最好的方案之一。


除了 Nervana NNP 芯片家族之外,英特尔还推出了用于边缘计算的第三代视觉处理器 Movidius Myriad VPU。



和第二代相比,第三代 VPU 再次刷新了边缘计算性能的标杆,在特定计算机视觉任务上的推理性能提升了超过10倍,能效也比竞品更好。这一产品主要适用于终端的嵌入式环境,比如小型机器人、摄像头、智能家具等。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: