正确的提示信息
扫码打开虎嗅APP
从思考到创造
打开APP
资讯
视频
前沿科技
车与出行
商业消费
社会文化
金融财经
出海
国际热点
游戏娱乐
健康
书影音
医疗
3C数码
观点
其他
虎嗅视界
24小时
专题/活动
虎嗅智库
登录
极速注册
取消
搜索历史
删除
完成
全部删除
数码
互联网
数码
互联网
热搜词
钟睒睒
本地生活
美团
字节跳动
年轻人
货币
网络暴力
房地产
网红
账号或密码错误
2012-10-27 11:26
搜索"盗梦空间"和"喵喵喵"将有何不同?来了解下实体搜索引擎的发展现状
知乎精选
虎嗅注:搜索引擎发展有三个阶段:也就是web graph(网页图谱)、social graph(社交图谱)和entity graph(实体图谱)。web graph把网页连接到一起,social graph把人连接到一起,接下来就是把实体连接到一起。搜索发展十多年,第一阶段战斗基本结束。接下来,搜索还有社交和实体
两次洗牌机会
。
Facebook
等社交网络和各大搜索巨头都在进军社交搜索领域。
那实体搜索引擎现在的发展状况如何?未来是否明晰?前Baidu搜索引擎rank工程师姚旭对在知乎里就这个问题进行了回答,
原文
如下:
背景:
实体(entity)搜索是相对于关键词(keyword)搜索而言的。
传统的关键词搜索虽然目前已经可以达到很高的"智能"水平,搜索结果在很大程度上可以帮助用户找到需要的信息。
但对于"搜索引擎"这个系统自身而言,其实并不了解搜索query本身有什么意思,对于搜索"盗梦空间"和"喵喵喵",搜索引擎做的事情基本差不多。 你告诉他要找什么,他就去按照字面意思勤勤恳恳的去找。 搜索引擎无法直接回答query,只能做一个信息的中转。
实体搜索关注的重点不是"关键词"级别的信息,而是"对象",比如:人,电影,软件,小说,公司,组织等等。 从关键词向实体转化,希望可以从更精细的角度来理解和组织搜索结果。 在一定程度上可以理解query的意思,并给出自己的答案。 一些更智能更个性化的交互也依赖于实体作为基础,比如"好看的电影"。
数据:
实体搜索需要前期花大量的时间和精力在建立关于实体的信息数据(这里有很多不同的叫法,比如Ontology,语义网等等)。 传统的html并不是一个有效的信息载体,至少截至目前,主流的html tag对于信息组织而言是没有实际意义的。 结构化数据通过html展现出来以后,原有的属性信息都丢失了。 也许在数据库中,一部电影和导演的关系是可以通过关系数据库表体现出来的,但html中td,tr之类的标签是无法表示这种关系的。
所以,对于搜索引擎而言,要从数据建设做起,基本上的通用做法大概分以下几个方面:
1) web实体属性的提取和消歧
2) 实体信息分类
3) 实体关系挖掘
目前这部分上,基本上领先的搜索引擎都在不断的做数据积累,这部分既要保证信息覆盖的广度,同时还要有足够高的信息精度。
产品:
数据建设是为了搜索引擎产品服务的,在数据层面积累的基础上,需要通过搜索产品来体现数据的价值。 除了将实体信息直接作为类似百科形式直接使用外,产品层面上已经逐步产生了很多有意思的新内容。
举一些有趣的例子:
1、实体的关联关系
"类似XXX的电影"这类query是实体关系的一种表现,传统关键词搜索在这类信息上是完全不够用的,
产品上从"搜索"逐步向"发现"转变。
类似盗梦空间的电影
2、实体的属性信息
"张艺谋导演的爱情电影"
"zhang yimou's movies"
莫言的书
3、 实体的分类信息
"杀毒软件",这个是
网上新闻
看来的。
此外,据说还有不少更惊艳的结果,有些内容似乎外界看不到,或者只有部分用户才能看到。 目前只能管中窥豹,简单展望一下。
最后说说未来
实体也好,ontology也好,语义网也好,这些名词在搜索这个应用场景下很大程度上在说一件事情。 就是在关键词的基础上,可以扩展出更多隐藏在关键词背后的信息,用于搜索结果的组织,展现,排序。 搜索引擎不再定位于一个单纯的索引机器,而是将信息进行扩展和重组。 至少从目前工业界的实际进展来看,效果还是很振奋的。 这是个高投入的活,几个搜索引擎大公司同时在这一方向上发力,我个人感觉目前已经从数据积累期逐步向产品产出这个阶段转化了。
原文:
见此
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:
前沿科技
支持一下
赞赏
0人已赞赏
分享至:
0
大 家 都 在 看
移动搜索成不了移动互联网的垄断级核心服务,问题在哪里
张磊
13:10
#AI有多智能
2023年科技界热度之王:AI大模型的崛起与影响
万大叔
沈向洋:搜索还有2次洗牌机会
嗅友yRaVM
Facebook的下一站:社交搜索
何玺
微信动得了搜索吗?
虎嗅
Graph Search,Facebook大数据释放的新机会?
虎嗅
十问AI搜索:没有数据的AI搜索都是白扯?
AI产品黄叔©
搜啥啥不行,文心一言和GPT-4快救救搜索引擎吧
果壳
ChatGPT与谷歌搜索,孰强孰弱?
穿云寻恒星©
OpenAI,为什么没敢推AI搜索
极客公园
火爆全网的ChatGPT,还干不掉Google搜索
爱范儿
15:58
#Web3.0完全手册
Web3.0是什么?能给我们带来什么改变?
纳斯赛博伯
01:20
搜索引擎是如何工作的?
KnowingAI知智
07:13
#AI有多智能
万物皆可生成式AI,风口还是噱头?
量子位
05:43
#5分钟科普
为什么搜索引擎里的信息越来越少?
柴知道
03:40
#AI有多智能
被称为2020最强大的人工智能语言模型,都能做哪些事情?
李明殊
08:04
#AI有多智能
只知道GPT?盘点13个王炸金融AI工具
毯叔盘钱
27:05
#AI有多智能
对话百度李彦宏:开源模型是智商税,AI Agent正在爆发
硅谷101
09:57
#AI有多智能
AI杀疯了?我们花了一年时间,总结出十款必备AI工具
林亦LYi
15:28
#AI有多智能
AI迎来觉醒时刻,中国遭遇最严峻的封锁
酷玩实验室coollabs
大 家 都 在 搜
钟睒睒
本地生活
美团
字节跳动
年轻人
货币
网络暴力
房地产
网红
APP内打开
好的内容,值得赞赏
您的赞赏金额会直接进入作者的虎嗅账号
自定义
支付:
元
匿名赞赏
支付