扫码打开虎嗅APP
出品|虎嗅黄青春频道
作者|商业消费主笔 黄青春
题图|视觉中国
“孤独的人是可耻的”,歌手张楚在 1994 年推出的同名专辑如是唱道。然而 30 年后的互联网,人们反复甄别,相遇到相知依然是件困难的事情。
相比 80 后、90 后,00 后会更多地为个性化和能够彰显自己独特的数字产品和服务买单,这使得做年轻社交越来越像一门玄学——从QQ、探探、Soul、积目再到小众化的轻语、Dots、Falo,交互体验往往决定着产品的上限。
“年轻人的社交需求在不断演化,关系链发现、建立、活跃等维度会影响用户数据,但 UI 设计、AI 能力、运营策略则会直接关系用户体验。”一位资深产品经理向虎嗅表示。
上周,Soul 刚刚在 GITEX GLOBAL 上(全球三大 IT 展之一)亮出了 AIGC+ 社交融合的新进展:用户不仅能利用 AI 创建 3D 数字人,还可以实时进行沉浸式语言、肢体互动。
“以前多模态交互是一个连续生成过程,会有延时,Soul 现在语音对话延迟不到 200 毫秒,因为我们已经推出了端到端大模型能力——过去先生成文本/图像再转换为语音,现在能将语音与 NLP 统一到一个集成流程中,从而消除了滞后问题。”Soul CTO 陶明解释称,这背后是一个数百人的技术团队在支撑,而 AI 人员配置占了一半。
事实上,2022 年底 ChatGPT 横空出世让整个互联网都为之躁动,心有猛虎的公司都在寻找向上攀爬的入口——豆包之于字节、元宝之于腾讯、文小言之于百度、通义千问之于阿里,互联网企业接连躬身入局。
形势不等人,Soul 也纵身一跃跳入了这股时代浪潮——一方面,中国移动互联网走到用户、流量趋于见顶的成熟期,监管会更侧重产业互联网的推进与建设;另一方面,在大模型浪潮的推动之下,AI 正为企业打开新的增长空间,这意味着技术走到平台重构生态的关键时期,互联网公司必须敢于纵身跳入 AI 浪潮(包括技术生态迭代、研发投入等)博一张未来的船票。
于是,越来越多开发者试图为用户构筑出一个丰饶的精神乐园、赛博分身,默默打磨着产品和团队,日拱一卒推动着产业齿轮缓慢前行。
而当 AIGC 的子弹射中社交时,往往要具备两个条件,一是持续推进产品快速迭代;二是持续探索新业务与场景融合方式。“Soul拥有‘人机对话’的基础原子能力,但用户与业务之间存在鸿沟,不能直接把原子能力推向用户,而要构建一个AI being 和 Human being 共存的社区。包括大模型六小强做的一些 AI 聊天产品都支持单点聊天能力,但社区无法仅靠单点聊天维持。”
陶明介绍, Soul 正从技术层面利用规则和策略,让人与 AI 交互变得更沉浸、真实。“人与 AI 在同一时空下不仅是单纯聊天,还要一起参与、创造场景,才能不断丰富用户体验。”
顺着这个逻辑,AI 不能只具备认知能力,还应当具备超强的感知能力——纯认知能力给用户带来的价值有限,用户更希望表达被感知和理解。
“社交产品要善于创造场景,在人与 AI 的交互过程中打造更多场景,前阵子我们发布了一个 demo,智能体在跟我们用户打电话的过程当中,如果你咳了几声,AI 会思考你是否感冒,这个互动过程用户获得 AI 的关心,是一种情绪价值。”陶明说到。
他认为,要加快 AI 的感知效率,必须要在语音和 NLP 的融合上下功夫,但很多大模型公司更多在打造基座能力,Soul 是为数不多去趟这个方向的企业,就是为了让用户能实时与具备形象、表情、记忆的 AI 多模态交互。
如此发展下去,年轻人好友列表会扩列越来越多 AI ——与 80 后、90 后社交基于某些物理连接(现实身份信息)不同,00 后社交更倾向构建一个赛博分身——他们对于互联网怀着一种热烈的期待,渴望被看见,却又固执地选择画地为牢、圈地自萌(圈层化)成为这个世代赛博社交最显性社交共性。
为什么赛博社交更容易掳获年轻人的心?
多位社交赛道从业者向虎嗅表示,市面上大多数传统社交产品与现实关系绑定、强调颜值、中心化分发内容,反而使自在表达、注重个性化的产品凸显出差异化优势:
首先,以探探为代表的滑动匹配,通过产品设计放大颜值、真人照片带来的视觉刺激。优势在于,极高的匹配效率;劣势在于,用户关系维护、沉淀环节缺失,容易转移到其他主流社交平台,长期留存不理想。
其次,与传统社交产品唯颜值论、强调荷尔蒙源动力不同,赛博社交以审美、兴趣为出发点,重塑形象进行社交沟通;赛博社交倡导“注意力普惠”,鼓励每一个用户参与到内容创造与社交互动中,并通过机制保证每个用户的发声被“同好”看到。
与此同时,主张个性表达是 00 后身上的显著标签,因为没有权威崇拜,反而可以更坦然面对自我——他们并不 care 你现实中的身份,对交友质量特别在意,更注重深度自我表达、平等沟通、包容性,有更强的群体认同感——汉服、语 C、Pia 戏等亚文化圈子莫不如是。
对此,Soul 产品负责人车斌曾向虎嗅表示,“从产品功能角度来看,赛博社交核心服务是无压力社交互动,并以多样的产品功能满足各个圈层个性化的社交需求。尤其 00 后,更依赖‘赛博好友’,彼此不需要成为线下好友。”
以下为虎嗅与 Soul CTO 陶明在迪拜沟通对谈实录,部分内容为方便阅读有所删减和调整:
赛博社交被 AI 拿捏了
Q:从用户需求来说,开发虚拟数字人大模型的前景如何?
陶明:人机对话是产品基础的原子能力,但不能直接把原子能力推向用户,而要构建一个 AI being 和 Human being 共存的社区,大模型六小强现在的一些 AI 聊天产品都支持单点聊天能力,但一个社区无法仅靠单点聊天维持住,需要更多 AI 与人共处的场景,比如语聊房场景让 AI 融合人的模拟情境去交流,类似现实世界的仿真。
所以,产品要善于创造场景,在人与AI 的交互过程打造更多场景。我们前阵子发布的 demo 中智能体就有感知能力,聊天中用户咳几声,AI 会围绕是否生病这个 topic 展开话题,再比如用户跟 AI 语音对话,AI 听到周边是咖啡馆或音乐派对,便会主动切入话题。
当然,AI 只具备认知能力并不够人格化,还必须要有感知能力,所以很多公司会认为加大 o1 认知能力,才能给用户带来更多的体验。
Q:你们产品多模态与 o1 呈现效果差距如何?
陶明:对于 AI 的进化来讲,感知能力不仅是听得到声音,还要听到环境。所以,加快 AI 的感知效率必须要在语音与 NLP 的融合上下功夫。但这并非多数大模型公司的方向,他们更多是要打造基座能力,我们是为数不多去趟这个方向的公司,目前效果反馈不错,马上就可以发布视频能力,届时 AI 不仅听得见还能实时与用户视频聊天,它有形象、表情和语言逻辑。
而且,端到端延迟在 200 毫秒以内,它不是原来模型的串行,而是把语音和 NLP 的 talking 统一化了,延时得到极大改善,用户才能真正“实时”得到交互反馈——这对业务会是一个极大拓展,未来类似直播或露脸的功能就可以做了,可探索空间被极大延展。
Q:这个感知包括 AI 场景搭建,有哪些关键的指标?
陶明:今年上半年整个战略方向做了调整,重点聚焦在 AI 手段得提效上,让 AI 增强现有的社交网络,站内数据反馈很不错。渗透来讲的话,AI 相关场景/功能应该大几百万日活,原来很多场景是产品策略去承接,然后打造一些产品功能,现在都慢慢有AI自主去承接。
不过,目前并没有全量去铺 AI 功能,而是一点点去渗透,因为每个人接受程度、适应能力不同,有些人愿意尝试新事物,有些人则不一定,所以只能循序渐进。
Q:交互需要对用户建立很多标签,如何实现 AI 的长记忆能力?
陶明:最开始是搜索思路,回答之前搜机库把答案存下来;后来做了个 AI 小模型,在进入对话大模型之前,小模型会帮用户提炼记忆点,可能有数百个记忆点,时间越长记忆点所涉及范围会越广。
现在设想的是对长记忆数据直接输入进去,但这是一个大的技术方向,里面还有很多细节,比如记忆不能说完全是持续的,比如整个记忆里面某个点重复多次,不同时间点感冒应该取哪一次?不同场景是不一样的,这需要人工去做一些标注辅助,不是一个模型就能解决的。所以,端到端去解决用户体验还有改进空间,抛开产品、运营,很难纯技术解决端到端。
Q:这一轮 AI 技术浪潮,你们是产品推着技术往前走还是技术研发推着产品发展?
陶明:原来逻辑是产品出需求,然后技术实现;现在情况会有一些不同,在内部需求群里 AI 算法工程师与产品都可以提需求。现阶段来看,技术工程师知道 AI 现在能做什么、需求能实现的确定性高,但产品是创意驱动,提的需求可能现在做不了。不过,这种错位是阶段性的,最终产品与技术的认知会逐渐拉平。
当 AI 的子弹击中社交
Q:关于社交出海,是否有具体的推进计划?
陶明:海外一直在探索,Soul 不仅是社交,也要在 AIGC 有独特生态位,但考虑到体验层面及用户端粘性,现在没有正式把海外产品放出来,依旧是主平台传递 AIGC + 社交的概念,即面向不同市场,有不同产品表现形式,不同功能及场景,但底层已经彻底打通。
当 AIGC 的子弹射中社交时,往往要具备两个条件,一是持续推进产品快速迭代;二是持续探索新业务与场景融合方式,后者现在还不是很明朗,所以面对这样一个不确定性的探索,我们还没设计具体的时间表。
Q:你们训练了两个 AI 模型,在降本增效上有所体现吗?
陶明:降本增效这个话题是绕不开的。我们有两个模型,一个是基于形象层面的3D大模型,从2020年开始探索,希望用户在产品中打造另外一个人设,同时能一键生成形象;另一个是多模态大模型,希望用户不仅在 Soul 里面能跟真人进行对话,还能跟 AI 进行对话。这两条线一直努力往前走,AI 大模型感知层面已经蛮成熟。
具体而言,组织层面正将各个职能架构进行重组,分 NLP、3D、CV、语音等,团队把面向单模态模型的所有工作全部 close 掉,打造一个融合团队来构建多模态模型。
至于技术层面,组织一定会带来技术方向的改变,所以现在整个技术上只有两条线:一条线是围绕类似 GPU 融合去打造 3D、CV、语音的多模态模型;另外一条线是围绕最近 OpenAI 发布的 o1 模型这个思路去尝试,因为语言模型是驱动底层模型更通用、更智能的方向,所以业内会保留 NLP 类似 与 o1 在推理端进行强化学习的技术方向走,只是快和慢的问题。
Q:大模型开闭源之争,您怎么看待这个问题?
陶明:大模型从发展之初就存在开源与闭源两条路线,背后是两个不同的商业模式。有企业一直说闭源最好,因为它要打造闭源生态,这是最佳路径,所以必须要强调这个方向,让潜在客户伙伴不要去自研模型;选择将大模型闭源的有 OpenAI 的 ChatGPT、百度的文心一言、华为的盘古、商汤的日日新等;而选择开源的 Meta、谷歌、百川、360、阿里等企业,希望借助“ Linux 模式”,聚合生态力量,让自己在 AI 市场占据一席之地,肯定会不遗余力让潜在客户用他的模型训练垂类模型。
从技术鄙视链条来看,企业产品训练用的开源,但内心其实也很想去打造一个闭源,这是工程师的一个执念,去打造一个完全闭源从 0~1 训练的大模型,而不是站在开源的基础上展示技术能力。
Q:中国互联网公司训练现在租卡和买卡投入上如何平衡?
陶明:很多公司没钱建专门的 GPU 机房,会去各个云平台买独占的卡,也会储备一些弹性的卡,这主要是从成本角度去考量。
但是囤卡风险太大,比如去年囤几千张卡到现在,整个卡的价值今年可能只剩下百分之三四十,价格波动太大。所以,大模型训练不要头脑发热去囤卡,现在跟供应商去聊,不管软件还是硬件,技术层面的商务交付方案必须可变,如果含固定就没有空间了。
Q:今年大模型行业似乎在降温,主要源于什么?套用开源模型与自研哪个好?
陶明:技术方向其实已经逐渐明朗,面对确定性的东西大家心态就会不那么焦虑,大概知道每家最后的底牌是什么。最近行业又有点焦躁,因为 AI 的推理能力的提升,大家又看到一个新的不确定东西,或许行业瓶颈是在英伟达,但现在还是 OpenAI 在引领。
至于是否自研,国内资源现在没有那么缺,去年开源的模型越来越多,在开源的基础上打造自己的基座并不是坏事——因为给业务赋能其实比自己埋头去做 Api 更重要。其实从产品角度来说,要的是快速交付,可能一天就要进行微调,但对 B 端公司很难交付,所以自研也会同步进行。
#虎嗅商业消费主笔黄青春、黄青春频道出品人,关注文娱社交、游戏影音等多个领域,行业人士交流加微信:724051399,新闻线索亦可邮件至 huangqingchun@huxiu.com