2025-07-12
字节跳动又盯上“情感大模型”了。
虎嗅获悉,字节跳动旗下火山方舟大模型平台将上线一批“情感大模型”,向企业提供 API 调用、AI 对话解决方案(如客服、信息检索服务等);豆包则在自研新“情感大模型”——与年初接入 DeepSeek 时策略一样,字节跳动依然坚持“火山开放,豆包自研”的路线,兼顾生态与自有产品。
虎嗅就上述信息向字节方面求证,火山引擎相关负责人回应称,有关“情感大模型”信息不实,没有此模型计划。
简单来说,字节跳动之所以盯上 “情感大模型”,源于其并非普通数据处理大模型,而是以 “拟人化情感理解” 为核心,即通过技术识别、理解来模拟人类情感——去年,Hume AI 推出具有情商的对话式 AI,已经能检测到用户 53 种情绪,未来电影《Her》中主人公迷恋上 Samantha 的剧情或将照进现实。
很多读者或许会好奇,“情感大模型”到底有什么特别之处?
区别于传统聊天机器人机械的交互,“情感大模型”不仅追求对话能力,更注重用户情感体验(如接近真人的语音、可打断对话等)——简单概括就是:“情感大模型”不止 “聊天”,更懂 “人心”,更能 “共情”。
“情感大模型”之所以突然成为市场关注的焦点,一个重要原因在于:它正推动 AI 从 “工具属性” 向 “情感伴侣” 延伸,从而打开全新的应用场景。
基于此,“情感大模型”的技术演化形成了两条路径:一是在通用大模型的基础上,通过增强多模态情感计算能力,催生出具有更好情感理解与响应能力的 AI 情感应用,如豆包实时语音大模型可实现端到端对话、低时延、接近真人交互。
二是专注于情感领域的生成式大模型,如 HumeAI 的移情语音界面(EVI)、祝语未来科技的 AEGMV 等,这也是字节正在布局的方向。
以 Character.AI 为例,不仅支持1对1聊天,还可以进行创作角色、发展剧情,甚至拉角色开“群聊派对”,其 7 月 5 日新发布的 TalkingMachines(自回归扩散模型)可以实时进行 AI 角色视频互动——用户只需要输入一张图片和声音信号,该模型就能实现类似 FaceTime 的通话视觉互动。

与之对应,仅去年上半年,Character.AI 在移动端累计下载量已突破 3432 万,网页端单月访问量高达 3.1 亿,在相关榜单仅次于 ChatGPT。
一位大模型工程师向虎嗅解释,“情感大模型”多以 Transformer 为基础不断改善网络结构,采取全模态关联,中间不进行模型转换动作,而是通过小组件改善准确率。
基于这样的技术特点,企业要如何落地应用呢?
虎嗅了解到,“情感大模型”与传统大语言模型在参数量和算力上有差异,业内普遍做法是有更多 NLP 专家参与,采用通用加分散专家模式,相比传统模型在算力上有所节省,但对特殊数据要求高。
与之对应,情感模型领域多采用端到端形式,不能像正常架构那样转换数据,否则模型效果差——有鉴于此,为保证长时间生成领域效果,训练时所需算力比通用版本高 30%-50%。
面对这样的市场与技术趋势,字节跳动如何布局?虎嗅了解到,字节跳动计划通过不同垂类大模型带动豆包月活在 2025 年实现翻倍。
一个有趣的切面是,“情感大模型”在语音层面学习时,会将语音、语调、面部关键点参数(如唇形等面部 landmark 参数)以及对应的文字以数据对形式放入模型,在语速、语调、视觉等多模态之间建立统一关联——这不仅涉及用户表达、短语分析,更深层次还需理解用户真实感受,敏锐地捕捉到用户内心愉悦、生气、担忧等情感状态。
比如,Hume AI 在 2024 年发布的 EVI 能够从用户那里检测到约 53 种不同的情绪,宣称是“第一个具有情商的对话式人工智能”。
对此,Hume AI 首席执行官艾伦·考恩(Alan Cowen)表示,“情商包括从行为中推断意图和偏好的能力——这是人工智能界面试图实现的核心:推断用户想要什么并执行它。因此,从用户真实需求层面来看,情商是人工智能界面最重要的要求。”
有鉴于此,“情感大模型”能大幅提高用户体验与交互效果,适用于助手类效率提升产品,在信息检索、陪伴、知识协作、AI 玩具、社交游戏等领域有显著优势——更隐秘的躁动则涌向了 AI 情趣机器人,一度带动二级市场产业上下游关联企业股价攀升。
黄青春频道