正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2012-10-27 11:26

搜索"盗梦空间"和"喵喵喵"将有何不同?来了解下实体搜索引擎的发展现状

虎嗅注:搜索引擎发展有三个阶段:也就是web graph(网页图谱)、social graph(社交图谱)和entity graph(实体图谱)。web graph把网页连接到一起,social graph把人连接到一起,接下来就是把实体连接到一起。搜索发展十多年,第一阶段战斗基本结束。接下来,搜索还有社交和实体两次洗牌机会Facebook等社交网络和各大搜索巨头都在进军社交搜索领域。

那实体搜索引擎现在的发展状况如何?未来是否明晰?前Baidu搜索引擎rank工程师姚旭对在知乎里就这个问题进行了回答,原文如下:

背景:

实体(entity)搜索是相对于关键词(keyword)搜索而言的。
传统的关键词搜索虽然目前已经可以达到很高的"智能"水平,搜索结果在很大程度上可以帮助用户找到需要的信息。

但对于"搜索引擎"这个系统自身而言,其实并不了解搜索query本身有什么意思,对于搜索"盗梦空间"和"喵喵喵",搜索引擎做的事情基本差不多。 你告诉他要找什么,他就去按照字面意思勤勤恳恳的去找。 搜索引擎无法直接回答query,只能做一个信息的中转。

实体搜索关注的重点不是"关键词"级别的信息,而是"对象",比如:人,电影,软件,小说,公司,组织等等。 从关键词向实体转化,希望可以从更精细的角度来理解和组织搜索结果。 在一定程度上可以理解query的意思,并给出自己的答案。 一些更智能更个性化的交互也依赖于实体作为基础,比如"好看的电影"。

数据:

实体搜索需要前期花大量的时间和精力在建立关于实体的信息数据(这里有很多不同的叫法,比如Ontology,语义网等等)。 传统的html并不是一个有效的信息载体,至少截至目前,主流的html tag对于信息组织而言是没有实际意义的。 结构化数据通过html展现出来以后,原有的属性信息都丢失了。 也许在数据库中,一部电影和导演的关系是可以通过关系数据库表体现出来的,但html中td,tr之类的标签是无法表示这种关系的。

所以,对于搜索引擎而言,要从数据建设做起,基本上的通用做法大概分以下几个方面:
1) web实体属性的提取和消歧
2) 实体信息分类
3) 实体关系挖掘
目前这部分上,基本上领先的搜索引擎都在不断的做数据积累,这部分既要保证信息覆盖的广度,同时还要有足够高的信息精度。 

产品:

数据建设是为了搜索引擎产品服务的,在数据层面积累的基础上,需要通过搜索产品来体现数据的价值。 除了将实体信息直接作为类似百科形式直接使用外,产品层面上已经逐步产生了很多有意思的新内容。  

举一些有趣的例子:
1、实体的关联关系
"类似XXX的电影"这类query是实体关系的一种表现,传统关键词搜索在这类信息上是完全不够用的,产品上从"搜索"逐步向"发现"转变。 


2、实体的属性信息 




3、 实体的分类信息
"杀毒软件",这个是网上新闻看来的。

此外,据说还有不少更惊艳的结果,有些内容似乎外界看不到,或者只有部分用户才能看到。 目前只能管中窥豹,简单展望一下。

最后说说未来

实体也好,ontology也好,语义网也好,这些名词在搜索这个应用场景下很大程度上在说一件事情。 就是在关键词的基础上,可以扩展出更多隐藏在关键词背后的信息,用于搜索结果的组织,展现,排序。 搜索引擎不再定位于一个单纯的索引机器,而是将信息进行扩展和重组。 至少从目前工业界的实际进展来看,效果还是很振奋的。 这是个高投入的活,几个搜索引擎大公司同时在这一方向上发力,我个人感觉目前已经从数据积累期逐步向产品产出这个阶段转化了。 

原文:见此
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: