正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-07-24 17:02

十问AI搜索:没有数据的AI搜索都是白扯?

本文来自微信公众号:AI产品黄叔,作者:Super黄,题图来自:视觉中国

文章摘要
本文探讨了AI搜索领域的关键问题,包括数据、索引库、用户习惯等方面,提出了许多有价值的见解。

• 💡 AI搜索的关键在于数据,缺乏数据将导致搜索质量下降

• 🌐 垂直搜索对于建立优质索引库更有益,可提升搜索结果质量

• 🤖 AI搜索将与AI Agent相结合,形成新的服务模式

前段时间,我组织了一次AI搜索的线下闭门会:


与会的同学包括了:360AI搜索、某大厂搜索、Gemini、ThinkAny、万知、Repotify、Miku、荣耀,基本占据了国内AI搜索的半壁江山吧,从中得到了很多的收获和思考,结合最近专门找了小邵深夜聊了一次,快速整理出了本篇文章,提出了一些问题,也做了一些思考。


一、AI搜索最大的壁垒在数据?


闭门会有一个小伙伴在某大厂做搜索,给出的洞察是:


没有数据的话都是白扯!


后面在和胡宁交流的时候,她也明确指出了这一点。


否则外壳做得再好、交互做得再好,用户一问,出来的内容也是渣渣!


这也是内容型产品做自己AI搜索的巨大优势:微信读书的AI问书、知乎&抖音&小红书等产品的AI搜索、腾讯元宝整合了公众号的数据。


我最近使用了小红书的达芬奇AI搜索,效果出奇的惊人:



为什么呢?小红书在旅游、美食、美妆、宠物、健身等等品类上,有全网最优质的内容,只要在它优质内容的垂域里搜索,自然也最容易得到优质的答案!


当然这也带来了国内过去这么多年百度逐渐没落的老问题:数据被分散在各个App内。


二、索引库必备么?


结论:做通用AI搜索不必,但垂直搜索必备!


很多AI搜索依赖Google或者Bing的API来获得检索结果,为何呢?


这是因为Google和Bing自建了非常强大的搜索引擎,其中包含了强大的索引库,可以较好地保证搜索结果的质量,以及提供了不错的排序。


此时依靠这些传统搜索引擎,已经能解决95%的问题了!


(以上是公众号 艾逗笔 在《我做了一个AI搜索引擎》一文内的流程图,在信息源检索下面我加了两个小方框)


从上图来看,自检索引库的关键在于要能提供比Google和Bing返回的结果更优的内容!想要做到,那就需要付出极大的成本和时间。


所以上面的结论就是如果你要做通用AI搜索,就别考虑自建索引库了,不管是资源的消耗还是时间的投入,都极其困难。靠第三方提供的API快速把商业模式跑通,可能才是王道。


当然这是大多数人不看好创业公司做通用AI搜索的一个主要原因。


那垂直搜索呢?这里进行到第二点:优质索引库


索引库分很多种,刚才说的是一个最大的索引库,要在里面去捞到合适的内容,其实效率还是比较低的。可以在这个大库上面再整一个优质索引库,里面存着更优质、更权威的内容,这样的优质索引库对于垂直AI搜索就会很有帮助。


因为前面第一章节也说了,AI搜索最大的关键点是数据!你知道这个垂直品类的优质内容和信息或者数据在哪里的话,是不是就能让AI搜索的结果质量更高了?


这是为何Perplexity在一开始从Academic启动,也是锚定垂类也方便去提前构建垂直索引库,保证初始的AI搜索效果非常优质。



打个比喻来帮助大家理解索引库是否必备:


我们设想一个各种菜系都提供的餐馆,思考一下,你增加了一个菜品的供货渠道,能让餐馆有更多客人吗?这个就离得有点远了。


但如果你只做大阪和牛,找到了一个精品货源,对于用户的口碑可能就会有很大的帮助。


三、垂类更便于AI搜索初创公司切入?


结合前两点,我们可以发现,不管是数据,还是索引库,给到创业者的选择都是先从垂直切入会是更好的一种方式。


toC层面有两点:


  1. 有利于用户口碑和心智的建立;


  2. 垂类更好整合进用户的工作流。


秘塔之所以被口口相传,也是科技工作者,或者学生,查询资料时,可以快速获得海量的结构化信息,相信秘塔本身索引库也会在这些用户群体关注的内容品类上做更多覆盖,提高AI生成的内容质量。


前阵子秘塔又上线了播客搜索,这也是秘塔的用户群体喜闻乐见的:



Repotify则更加具体,聚焦在财报研报等投融资用户的需求方向上:



有时我自己查询一些企业的财报、电话会信息,也会打开使用。


再比如Devv,可以指定信息源,连接到指定的Github仓库来进行搜索:



这种深入就是心智的建立:知道这款AI搜索产品能解决自己的问题!


对应的,垂直AI搜索也知道很多信息源在哪里,包括还有一些独到的用户需求能够更好地满足。


四、用户习惯的惯性对于AI搜索的意义?


结论:非常重要!



上图是夸克浏览器最近全面更新的AI搜索。


如果你是夸克的用户,会不会天然地就体验到了AI搜索呢?


我们设想一下,即使是过去百度最鼎盛的时期,依然有大量的用户不会去用它,为什么?还有其他的产品会占据用户的习惯呀,比如说搜狗和360的三级火箭里面,就会用浏览器来满足用户的搜索需求,你百度做得比Google更好也不可能抢走那批用户。


通用AI搜索很难做的一点是,用户习惯很难迁移,他用惯了夸克浏览器,就会继续用夸克的AI搜索,并且各家大厂包括Google都已经很坚决的推进AI搜索的情况下,你很难做得远超出Google去让用户转过来用你的,或者说,在Google全量上AI搜索之前,只会留出很短的时间窗口。


五、模型微调是必备的么?


结论:当前阶段非常有价值!


搜索是一个用户需求很泛化的场景,用户会问各种各样的问题,比如说:


黄河有多长?这种问题简短回答就行了 。


怎么哄小孩睡觉?这种问题可能需要给你个手把手的教程。


所以搜索依赖的大模型能力需要在不同分支下,具备不同的回答能力。


360AI搜索已经把query的意图识别分类做到了4000多种,每一种需求配对应的Prompt。工作做得已经相当精细了,但梁志辉告诉我,这仍然只是很粗颗粒度的匹配。


你会好奇的是,为何360要做这么多Prompt工程,似乎也没说到微调的事情呀。


是的,这就是不同的解决方案。


Prompt也好,微调也罢,是对模型做不同力度的劝导!


目前阶段大模型对于指令的跟随效果不是特别优秀,所以当前阶段下,微调非常有价值。


六、AI搜索+Agent会逐渐盛行?


结论:大模型提供信息,Agent提供服务


未来大概率会演变成AI搜索是平台,上面的Agent是一个个的服务。


目前的Agent更多是用Prompt调教的,对于垂直的能力深度还是非常有限的,如果未来能做到AI搜索和AI Agent之间的紧密配合,就很厉害了。


换个思路,思考下微信平台里的小程序。微信提供基础的服务/信息,小程序提供各种垂直的服务。


Agent进阶的一种形态是:Multi-Agent。



Miku AI搜索就很典型是一个基于Agent框架开发的AI搜索,吴恩达在AI Ascent 2024大会上指出:“基于GPT-3.5构建的AI智能体工作流在实际应用中表现比GPT-4更好”


除此之外,ThinkAny的创始人idoubi也考虑后续增加工作流Workflow,就是Multi-Agents,你可以认为前端是AI搜索,去检索信息,然后进入到用户自定义的Multi-Agnets里,最后经过智能体们的处理,获得用户自己想要的信息: 



或者说,AI搜索+Coze。


七、AI搜索生成内容,AI小红书会来么?


结论:这是一个明确的趋势。


我们在《拳打Google,脚踢Perplexity,Genspark要做美女给你打好饭还喂进嘴!的新物种》一文里,也提到了Sparkpage这套逻辑:



AI可以先生成一次结果,用户再在此基础上进行修改,相当于AI+人共同生成一个网页。


包括Perplexity也做了一样的Page能力。


从某种角度来说,这种逻辑是直接和人类创作者PK,是AI搜索+人去PK人类创作者。 


参考即刻@余一 的普通人的AI使用说明书,相当于中间那一层。


其实AI搜索走到这一步非常自然,就像我们理解各大厂和各大模型厂的效率工具都会加入搜索能力一样,只要理解搜索是为了后续效率工具获取信息,就可以很丝滑的get到这一点。


也就容易理解小红书很担心类似的产品:未来如果是AI+人也能生成高质量的内容,并且形成自己的社区生态,那必然和小红书是带来竞争关系。


八、AI SEO会逐渐形成共识?


上面这一点,其实衍生出一个结论:AI SEO马上就会成为共识


新的产品如何获得流量,已经开始逐步变成大家关注的话题了,那AI搜索也同样会面临这个困境,我们在Genspark一文里,提到了Genspark通过Agent生成Sparkpage的内容质量“很高”,这样的内容可以被Google收录,从而获得源源不断的流量:



类似的流量获取机制,Perplexity已经深深受益了:



同样的,360AI搜索也通过每天晚上定时跑任务,并且通过更高优先级的方式插入到360搜索的索引内,用AI生成网页的方式,既满足了用户的长尾Query,又给AI搜索本身带去了流量。


AI搜索本身就是非常好的内容生成框架,结合AI SEO从传统搜索引擎吸取流量,也是前期快速成长的好方式。


九、有人说Sparkpage的内容质量一般,重要么?


结论:可能并不重要。


沿着上面的思路,我们可以尝试去思考一个点:


不是所有问题都要直达终点。


答案可以是一个过程,是一个中间态,这依然有很大的价值。


直白点说,Sparkpage能给到你一些启发,帮助你去优化自己的攻略/购买决策,已经很有效了。如果未来更多用户基于它去生成高质量的人+AI共创的内容,那真的就是AI小红书。


换个角度:


传统搜索里,Top10%的Query占据了95%以上的流量。这意味着AI搜索有一定的可能性把用户最关注的答案优先生成好!


十、AI搜索是一种退化?


结论:搜索从10个链接到1个答案是进化,但从视频到文字是退化。


这是闭门会的一位小伙伴说的,传统搜索是菜市场,AI搜索是送外卖,但是,从视频到文字是退化!


相信你也会思考,为何AI搜索大部分都是文字结果的呢?


我们来看看一些可能性:



这里面广义的AI搜索可以包含,并且可以实现的扩展能力有:


输入变得更加丰富和自由:


Query多模态:从只能文字+语音转文字输入,到Circle to Search、智能镜头,图片、视频输入等等


360AI搜索App已经上线了AI图片识别搜索能力: 



Google的Take a video,微软的Copilot陪你一起玩,在技术层面已经开始进入到了视频交互层面了,这是非常大的一个跨越。不难想象的是,一旦这类能力进一步整合到随身的硬件上,会有多么大的体验提升。


输出也会更多元:


1. 信息整合:AI OverView(链接、图片、POI、邮件、文档等),典型的可见产品为Genspark的Sparkpage;Perplexity和Tako信息卡片合作,使得输出内容可以支持图标,还有秘塔AI搜索可以直接把生成的结果信息生成PPT;


(秘塔AI搜索实现:Search Query to PPT)


2.服务整合:Planning、Agent、Prompt-pic-Shopping等等。


两者的边界同时在扩充,并且都可以更深度地理解用户的意图,这会让AI搜索可满足的用户需求,从过去仅仅提供信息/内容整理,扩充到工作生活学习的方方面面。


最近的一步,AI搜索更应该是把答案组织成用户更喜欢的载体,这可能是图文混排,或者包含视频,这涉及到的是信息的组织,Genspark的Sparkpage就非常典型,我们之前画过结构图:



所以,目前看只能生成文字的AI搜索,在局部确实是退化的。


总结


这篇文章,是一个阶段性的思考,期间有大量的使用AI搜索完成日常信息的搜集,有大量和行业从业者的沟通交流,这里感谢参与其中的各位。


参考

我做了一个 AI 搜索引擎 from 艾逗笔

《普通人的AI使用说明书》 from 即刻@余一 

https://gamma.app/docs/AI-Dev-9y7n4vslcp2bol2?mode=doc


感谢愿意署名的共创者: 

AI产品经理 小邵,即刻 “小邵嘚啵嘚” 

Miku AI创始人 Franco,微信:aigeek2024

ThinkAny 创始人 idoubi,即刻: 艾逗笔


本文来自微信公众号:AI产品黄叔,作者:Super黄

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: