正确的提示信息
扫码打开虎嗅APP
从思考到创造
打开APP
资讯
视频
前沿科技
车与出行
商业消费
社会文化
金融财经
出海
国际热点
游戏娱乐
健康
书影音
医疗
3C数码
观点
其他
榜单
虎嗅视界
24小时
妙投APP
虎嗅智库
登录
极速注册
取消
搜索历史
删除
完成
全部删除
数码
互联网
数码
互联网
热搜词
百度
摩托车
特斯拉
李显龙
女性主义
杀猪盘
粤港澳大湾区
消费
地铁
账号或密码错误
2012-10-27 11:26
搜索"盗梦空间"和"喵喵喵"将有何不同?来了解下实体搜索引擎的发展现状
知乎精选
虎嗅注:搜索引擎发展有三个阶段:也就是web graph(网页图谱)、social graph(社交图谱)和entity graph(实体图谱)。web graph把网页连接到一起,social graph把人连接到一起,接下来就是把实体连接到一起。搜索发展十多年,第一阶段战斗基本结束。接下来,搜索还有社交和实体
两次洗牌机会
。
Facebook
等社交网络和各大搜索巨头都在进军社交搜索领域。
那实体搜索引擎现在的发展状况如何?未来是否明晰?前Baidu搜索引擎rank工程师姚旭对在知乎里就这个问题进行了回答,
原文
如下:
背景:
实体(entity)搜索是相对于关键词(keyword)搜索而言的。
传统的关键词搜索虽然目前已经可以达到很高的"智能"水平,搜索结果在很大程度上可以帮助用户找到需要的信息。
但对于"搜索引擎"这个系统自身而言,其实并不了解搜索query本身有什么意思,对于搜索"盗梦空间"和"喵喵喵",搜索引擎做的事情基本差不多。 你告诉他要找什么,他就去按照字面意思勤勤恳恳的去找。 搜索引擎无法直接回答query,只能做一个信息的中转。
实体搜索关注的重点不是"关键词"级别的信息,而是"对象",比如:人,电影,软件,小说,公司,组织等等。 从关键词向实体转化,希望可以从更精细的角度来理解和组织搜索结果。 在一定程度上可以理解query的意思,并给出自己的答案。 一些更智能更个性化的交互也依赖于实体作为基础,比如"好看的电影"。
数据:
实体搜索需要前期花大量的时间和精力在建立关于实体的信息数据(这里有很多不同的叫法,比如Ontology,语义网等等)。 传统的html并不是一个有效的信息载体,至少截至目前,主流的html tag对于信息组织而言是没有实际意义的。 结构化数据通过html展现出来以后,原有的属性信息都丢失了。 也许在数据库中,一部电影和导演的关系是可以通过关系数据库表体现出来的,但html中td,tr之类的标签是无法表示这种关系的。
所以,对于搜索引擎而言,要从数据建设做起,基本上的通用做法大概分以下几个方面:
1) web实体属性的提取和消歧
2) 实体信息分类
3) 实体关系挖掘
目前这部分上,基本上领先的搜索引擎都在不断的做数据积累,这部分既要保证信息覆盖的广度,同时还要有足够高的信息精度。
产品:
数据建设是为了搜索引擎产品服务的,在数据层面积累的基础上,需要通过搜索产品来体现数据的价值。 除了将实体信息直接作为类似百科形式直接使用外,产品层面上已经逐步产生了很多有意思的新内容。
举一些有趣的例子:
1、实体的关联关系
"类似XXX的电影"这类query是实体关系的一种表现,传统关键词搜索在这类信息上是完全不够用的,
产品上从"搜索"逐步向"发现"转变。
类似盗梦空间的电影
2、实体的属性信息
"张艺谋导演的爱情电影"
"zhang yimou's movies"
莫言的书
3、 实体的分类信息
"杀毒软件",这个是
网上新闻
看来的。
此外,据说还有不少更惊艳的结果,有些内容似乎外界看不到,或者只有部分用户才能看到。 目前只能管中窥豹,简单展望一下。
最后说说未来
实体也好,ontology也好,语义网也好,这些名词在搜索这个应用场景下很大程度上在说一件事情。 就是在关键词的基础上,可以扩展出更多隐藏在关键词背后的信息,用于搜索结果的组织,展现,排序。 搜索引擎不再定位于一个单纯的索引机器,而是将信息进行扩展和重组。 至少从目前工业界的实际进展来看,效果还是很振奋的。 这是个高投入的活,几个搜索引擎大公司同时在这一方向上发力,我个人感觉目前已经从数据积累期逐步向产品产出这个阶段转化了。
原文:
见此
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:
前沿科技
支持一下
赞赏
0人已赞赏
分享至:
0
大 家 都 在 看
移动搜索成不了移动互联网的垄断级核心服务,问题在哪里
张磊
13:10
#AI有多智能
2023年科技界热度之王:AI大模型的崛起与影响
万大叔
沈向洋:搜索还有2次洗牌机会
嗅友yRaVM
Facebook的下一站:社交搜索
何玺
微信动得了搜索吗?
虎嗅
Graph Search,Facebook大数据释放的新机会?
虎嗅
搜啥啥不行,文心一言和GPT-4快救救搜索引擎吧
果壳
ChatGPT与谷歌搜索,孰强孰弱?
穿云寻恒星©
OpenAI,为什么没敢推AI搜索
极客公园
火爆全网的ChatGPT,还干不掉Google搜索
爱范儿
大模型加持,搜索会更好用?
胡阳©
15:58
#Web3.0完全手册
Web3.0是什么?能给我们带来什么改变?
纳斯赛博伯
01:20
搜索引擎是如何工作的?
KnowingAI知智
07:13
#AI有多智能
万物皆可生成式AI,风口还是噱头?
量子位
05:43
#5分钟科普
为什么搜索引擎里的信息越来越少?
柴知道
03:40
#AI有多智能
被称为2020最强大的人工智能语言模型,都能做哪些事情?
李明殊
08:04
#AI有多智能
只知道GPT?盘点13个王炸金融AI工具
毯叔盘钱
09:57
#AI有多智能
AI杀疯了?我们花了一年时间,总结出十款必备AI工具
林亦LYi
15:28
#AI有多智能
AI迎来觉醒时刻,中国遭遇最严峻的封锁
酷玩实验室coollabs
08:39
建议收藏:躺着都能学会的Python教程来了
东塔网络安全学院
大 家 都 在 搜
百度
摩托车
特斯拉
李显龙
女性主义
杀猪盘
粤港澳大湾区
消费
地铁
APP内打开
好的内容,值得赞赏
您的赞赏金额会直接进入作者的虎嗅账号
自定义
支付:
元
匿名赞赏
支付