去搜搜
头像
腾讯为什么要花大钱投一家知识图谱公司?
2019-03-29 19:23

腾讯为什么要花大钱投一家知识图谱公司?

文章所属专栏 前沿技术情报所

3月27日,大数据与人工智能领域企业明略数据宣布完成D轮融资,新一轮融资金额为20亿元人民币,由腾讯领投。在如今的资本环境下,能获得这么高融资额度的AI公司并不多。

 

明略数据成立于2014年,现在将自己定位为企业级人工智能产品与服务平台,不过这家公司其实是做知识图谱起家的公司,其业务形式是将多源异构数据进行融合治理,形成垂直行业领域的知识图谱,再利用人工智能技术形成行业+AI解决方案。

 

实际上在2017年的明略数据C轮10亿元融资中,腾讯也参与了。此次腾讯又领投了D轮,此轮明略数据获20亿元融资。


腾讯为什么看上这家知识图谱公司,行业知识图谱对腾讯有什么价值?本次周报我们一起来了解一下知识图谱这个领域。

 

知识图谱行业纵览

 

1)我们知道现在的AI可以分为感知智能与认知智能,感知智能让机器学会看和听,大家熟知的人脸识别、语音识别都属于此类。认知智能是让机器有理解和推理的能力。知识图谱是其中一项比较重要的技术。

 

让机器有认知能力,首先得把人类所总结出来的知识在计算机世界里表示出来,即知识表示,而且知识不能是无序的,需要将知识之间的关系表述出来。

 

知识图谱(Knowledge Graph)本质上是就是一种知识表示形式,是一种图状的数据结构,由节点和边组成。节点有三种,即实体、概念、属性,可以理解为不同层级的知识点。而边则为节点与节点之间的“关系”。


简单的知识图谱


具体来看,实体、概念、属性三种节点的范围从小到大。



这样,实体、概念、属性三种层面的知识包含着知识图谱里面,而不同的实体、概念、属性之间的关系,也是知识,这些共同构成一个关系网络。知识图谱从关系的角度去分析问题。

 

举例来说,北京、上海等不同的实体,从属于中国这一概念,中国又是国家中的一个,国家是中国的属性,国家属性下还有美国等国家。中国的概念下又还有广东、浙江等实体。这就把不同的知识包含着同一个图谱里面。当然,这是最简单的图谱了。


专业级的图谱,如医疗图谱中,糖尿病这个概念之下,又有重度胰岛素缺乏型糖尿病(SIDD)、重度胰岛素抵抗型糖尿病(SIRD)、轻度肥胖相关型糖尿病(MOD)、轻度年龄相关型糖尿病(MARD)等不同的实体,不同实体之间会有关系,而且不同的致病因素等实体,与这些病症也会存在因果关系,体现在图谱中。这需要专业知识去建立图谱。

 

因此我们看到,知识图谱既有通用的知识图谱,也有行业或垂直领域的知识图谱。通用知识图谱可以用于搜索、推荐、问答等业务场景,行业知识图谱对准确度要求非常高,可以用于辅助各种复杂的分析应用或决策支持。通用知识图谱中的知识,可以作为行业知识图谱的认知基础,而行业知识图谱作为专业知识,可以补充到通用知识图谱里面去。

 

 2)真正商业的知识图谱是非常复杂的,是大数据量的关系集合。复杂的知识图谱是怎么建立起来的?


简单来看一下知识图谱的建立过程。建立一个知识图谱,大概会经历知识建模、知识获取、知识融合、知识存储、知识图谱查询和推理计算、知识应用。


简单来说,建立知识图谱,需要先确立图谱的构架,这时候可以由专家自下而上去建立构架,也可以基于行业的通用标准去建立,另外,自然语言处理技术在不断发展,词向量嵌入等技术逐渐兴起,可以高效率处理大规模文本语料库,也在应用到知识建模过程中。

 

构架搭起来,下面是填充知识点,即知识获取,从不同来源、不同结构的数据中去提取实体、概念、属性,这其中涉及到的技术包括实体识别与链接技术、实体关系学习技术、事件知识学习技术等。



有了充足的知识后,还要考虑知识数据的多样性和异构性,做知识的融合,将不同的知识图谱融合为一个统一、一致、简洁的形式,使知识图谱更加容易操作。这里涉及到概念合并、确立概念的上下位关系等,以及实体之间的合并、舍弃等处理。

 

接下来对知识进行存储,以支持上层的知识推理、知识快速查询、图实时计算等应用。

 

在形成的知识构架基础上,该考虑怎么用了。应用起来,需要构建起算法,支持用户的知识图谱查询,支持图谱去做推理计算,也就是怎么用算法把构建的知识体系调用起来。这其中包括图挖掘计算、本体推理、基于规则的推理等。这是知识图谱建立的关键点,也是难点。如大规模图算法的效率、大数据量下的快速推理、对于增量知识和规则的快速加载等。

 

接下来就是应用的环节,常用的应用包括语义搜索、智能问答、决策支持等。

 

 可以看到,建立知识图谱的过程,是非常复杂的过程,需要人的经验的参与,也需要用技术去提取技术,还需要用算法去确立实体之间的关系,这些关系怎么去使用起来,也需要算法来支持。

 

 3)这么复杂的建立过程,形成了知识图谱,用处是什么?


来看看知识图谱的应用场景。

 

知识图谱最初有搜索引擎提出,最早的应用也是在搜索领域。2012年,Google推出第一版知识图谱,引发广泛关注,互联网企业纷纷推出了自己的知识图谱。在国内,搜索引擎厂商百度和搜狗分别推出”知心“和”知立方”。在搜索引擎领域,知识图谱的作用在于改善搜索质量,对于一些问题,如“马云出生于哪一年”,可以直接给出答案。搜索关键词时,在给出搜索结果的同时,搜素引擎还可以将相关的信息在搜索引擎右侧予以展示。这在搜索结果中已经比较常见,这是知识图谱的作用。

 

其次是问答场景,在聊天机器人背后,需要有知识图谱来提供知识体系,当用户提到某关键词时,实现对图谱的检索,提供相关信息。这里面的典型应用包括微软小冰、IBM  Watson、苹果的Siri、Google Allo、Amazon Echo、百度度秘。

 

在各种垂直行业的知识图谱中,知识图谱都得到广泛的应用。可以帮助实现信息检索,也可以对决策构成支持。在金融、安防、教育、零售、物流、农业、医疗健康、广告、通信、IT、制造业、传媒、环境保护、法律等垂直领域,都有知识图谱建立,帮助实现在各自领域的决策过程。


资料来源:美团AI Lab NLP 中心负责人王仲远



金融是典型场景,这些年给消费金融带来革命性变革的大数据风控,背后有知识图谱的贡献。依据所掌握的借款人身份信息,结合借贷历史数据、信用卡数据、消费数据等与信用强相关的数据,以及社交信息、通讯录名单、网络行为数据等与信用弱相关的数据,建模分析各种信息之前的关系,构建知识图谱,可以辅助进行信用水平的判断。如可以查询借款人的一系列数据信息以及信用评分判断信用,也可以依据通讯录中存在的联系人情况,判断是否处身于诈骗团伙。这方面应用已经很多。在企业金融领域,通过整合工商信息、法院信息等,形成公司行为图谱,发掘企业的上下游、合作、竞争对手、子母公司、投资、对标、高管与企业间的任职等关系,可以在一定程度上发掘企业的信用情况。

 

再比如公安场景。案件发生后,通常情况下是办案人员依据自己的知识和经验,综合去发现和判断人、事、地、物、组织等要素,寻找线索来破案。严重依赖经验,且工作强度非常大。而通过建立公安知识图谱,将案件中的各种利害相关人的历史信息、与案件相关的系统信息、历史上类似案例的破案信息等通过查询方式来调用,可以让机器来高效整合信息,寻找破案思路。


以明略数据的公安解决方案为例,明略数据利用知识图谱形成解决方案,建立全维度数据关联,绘制社会关系网络图谱,连通孤立数据,形成面向业务应用的大数据平台,转化为破案线索;集成大量犯罪和预测模型,通过大数据对案件研判和预警;在界面上,形成可视化分析,帮助执法人员发现关键线索。

 

 4)这个领域内都有哪些公司?

 

来看看知识图谱领域的公司。

 

知识图谱领域的公司也非常多,大公司一般都会建立自己的知识图谱,主要作用是辅助自己的核心业务。



而知识图谱领域的创业公司,多是扎根某几个领域做行业专属的知识图谱,为行业内企业的决策过程赋能。获得融资的知识图谱领域的创业公司也有一些,公安和金融领域是普遍的应用落地场景。



目前在创业公司中,明略数据、百分点、达观数据等算是这个领域较大的公司,融资轮次也更高。不过相对于AI的主要细分领域,如计算机视觉、语音识别、自然语言处理,知识图谱领域的公司明星公司更少。

 

知识图谱领域的创业公司在商业模式上,主要是以定制化解决方案的形式与客户进行深度绑定,建图谱、跑数据,训练算法,交付项目。明略数据就是这种类型,与公安、金融、工业领域的客户建立深度合作,技术公司本身很难靠自己深度了解行业,与客户深度绑定,也可以在于客户的磨合中积累行业经验,所建立的知识图谱的深度和覆盖面也可以获得提高,也只有这样才能逐步建立起壁垒来。当然,这样需要较长的时间去跟客户磨,沟通方案、调整产品、更新知识和算法。数据显示,明略数据在公安、金融、工业等领域客单价在数百万左右,2016年、2017年的营收规模在1亿元、2亿元左右。

 

此外有一些公司如渊亭科技采用销售知识图谱标准化模块的形式,试图获得更快的发展,但这种形式的问题是标准化的模块很难全面满足客户需求,客户做知识图谱,为的是优化决策,其中的知识信息需求与搜索需求都是个性化的,标准化模块作用不大,且客单价更低。

 

知识图谱行业解析

 

1)回到最初的问题,明略数据对腾讯有哪些价值?


腾讯现在在向产业互联网转型,腾讯服务C端的能力出众,但在B端缺乏足够的经验和资源积累。B端服务需要深扎行业,深入理解行业需求,服务难度太大,而且很慢。从阿里到腾讯,做产业互联网都是以云服务为中心,做行业的解决方案,为增强方案的落地能力,更快速地占领市场,都是采用招募具体行业里的软件独立开发商(ISV),去建生态,形成更可靠的解决方案。


可以理解为明略数据是腾讯云的大型供应商,在所擅长的公安、金融、工业等领域,依据已经形成的知识图谱能力,帮助腾讯云增强落地能力。事实上腾讯云与明略数据在2018年就是特别战略伙伴,在金融、工业与物联网等垂直行业,有深度合作。


在腾讯云2018年“数字北京”等数字城市系列项目中,明略数据参与了数据治理、汇聚以及解决方案规划等工作。腾讯投资明略数据,可以理解为深度绑定,利用明略数据积累的行业知识图谱,丰富腾讯云在行业里的落地能力

 

2)与大企业深度绑定,甚至被大企业收购,似乎是知识图谱领域创业公司的更好归宿。因为知识图谱虽然做起来有价值,但靠本身的内生增长,很难快速形成大规模营收和利润。


在需求层面,有技术的互联网公司,基本都自建知识图谱。创业公司只能面向传统行业。大多数行业里面,知识图谱并不能带来直接的收入增长或者成本下降,也并不能直接给企业指明解决问题的具体办法,而是通过知识工具,提高研究过程和形成决策过程的效率,这并不像人脸识别或者语音识别,可以实打实地完成某项明确目标。也因此,客户的付费意愿会受到一定影响。


从成本看,建立行业知识图谱,往往需要跟客户进行深度沟通,去完成项目交付,客户的需求往往是个性化的,大多需要用定制化方式去完成。成本往往是随着项目的增多而线性增长。


就本身的发展路径看。知识图谱公司要形成壁垒,只能靠深扎行业去提高对行业的理解力,跟客户长时间绑定,去提取行业里的实体与关系,这决定了企业很难快速做大。这是一个需要慢慢熬炼的行业,需要不断打磨。


明略数据是行业里位于前列的公司,营收也只有几亿而已。

本内容未经允许禁止转载,如需授权请微信联系妙投小虎哥:miaotou515
如对本稿件有异议或投诉,请联系tougao@huxiu.com
评论
0/500 妙投用户社区交流公约
最新评论
这里空空如也,期待你的发声