搜索"盗梦空间"和"喵喵喵"将有何不同？来了解下实体搜索引擎的发展现状-虎嗅网

虎嗅注：搜索引擎发展有三个阶段：也就是web graph（网页图谱）、social graph（社交图谱）和entity graph（实体图谱）。web graph把网页连接到一起，social graph把人连接到一起，接下来就是把实体连接到一起。搜索发展十多年，第一阶段战斗基本结束。接下来，搜索还有社交和实体两次洗牌机会。Facebook等社交网络和各大搜索巨头都在进军社交搜索领域。

那实体搜索引擎现在的发展状况如何？未来是否明晰？前Baidu搜索引擎rank工程师姚旭对在知乎里就这个问题进行了回答，原文如下：

背景:

实体(entity)搜索是相对于关键词(keyword)搜索而言的。

传统的关键词搜索虽然目前已经可以达到很高的"智能"水平，搜索结果在很大程度上可以帮助用户找到需要的信息。

但对于"搜索引擎"这个系统自身而言，其实并不了解搜索query本身有什么意思，对于搜索"盗梦空间"和"喵喵喵"，搜索引擎做的事情基本差不多。你告诉他要找什么，他就去按照字面意思勤勤恳恳的去找。搜索引擎无法直接回答query，只能做一个信息的中转。

实体搜索关注的重点不是"关键词"级别的信息，而是"对象"，比如：人，电影，软件，小说，公司，组织等等。从关键词向实体转化，希望可以从更精细的角度来理解和组织搜索结果。在一定程度上可以理解query的意思，并给出自己的答案。一些更智能更个性化的交互也依赖于实体作为基础，比如"好看的电影"。

数据:

实体搜索需要前期花大量的时间和精力在建立关于实体的信息数据(这里有很多不同的叫法，比如Ontology，语义网等等)。传统的html并不是一个有效的信息载体，至少截至目前，主流的html tag对于信息组织而言是没有实际意义的。结构化数据通过html展现出来以后，原有的属性信息都丢失了。也许在数据库中，一部电影和导演的关系是可以通过关系数据库表体现出来的，但html中td,tr之类的标签是无法表示这种关系的。

所以，对于搜索引擎而言，要从数据建设做起，基本上的通用做法大概分以下几个方面：

1) web实体属性的提取和消歧

2) 实体信息分类

3) 实体关系挖掘

目前这部分上，基本上领先的搜索引擎都在不断的做数据积累，这部分既要保证信息覆盖的广度，同时还要有足够高的信息精度。

产品:

数据建设是为了搜索引擎产品服务的，在数据层面积累的基础上，需要通过搜索产品来体现数据的价值。除了将实体信息直接作为类似百科形式直接使用外，产品层面上已经逐步产生了很多有意思的新内容。

举一些有趣的例子:

1、实体的关联关系

"类似XXX的电影"这类query是实体关系的一种表现，传统关键词搜索在这类信息上是完全不够用的，产品上从"搜索"逐步向"发现"转变。

类似盗梦空间的电影

2、实体的属性信息

"张艺谋导演的爱情电影"

"zhang yimou's movies"

莫言的书

3、实体的分类信息

"杀毒软件"，这个是网上新闻看来的。

此外，据说还有不少更惊艳的结果，有些内容似乎外界看不到，或者只有部分用户才能看到。目前只能管中窥豹，简单展望一下。

最后说说未来

实体也好，ontology也好，语义网也好，这些名词在搜索这个应用场景下很大程度上在说一件事情。就是在关键词的基础上，可以扩展出更多隐藏在关键词背后的信息，用于搜索结果的组织，展现，排序。搜索引擎不再定位于一个单纯的索引机器，而是将信息进行扩展和重组。至少从目前工业界的实际进展来看，效果还是很振奋的。这是个高投入的活，几个搜索引擎大公司同时在这一方向上发力，我个人感觉目前已经从数据积累期逐步向产品产出这个阶段转化了。

原文：见此

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

搜索"盗梦空间"和"喵喵喵"将有何不同？来了解下实体搜索引擎的发展现状

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜