豆包PC端“开箱”，从语音卷到了方言-虎嗅网

出品｜虎嗅科技组

作者｜余杨

编辑｜苗正卿

头图｜视觉中国

8月22日，火山引擎 AI 创新巡展上海站开幕，活动展示了豆包大模型在综合评分、语音识别等方面的效果提升，语音能力是此次发布重点。

大模型团队聚焦了对话式 AI 实时交互，产出 Seed-ASR ，这项成果或许可以对标OpenAI于7月31日发布的 ChatGPT 全新高级语音模式。

根据当时社交媒体上发布的视频，OpenAI 员工可以打断聊天机器人，并要求聊天机器人以不同的方式讲述故事，而聊天机器人则从容应对他们的打断并调整其响应。

简单来说，支持“边想边说”，具备更强的上下文感知能力，因而有着更优秀的推理能力，更准确的回答结果。

引人注目的是，豆包声称其语音能力支持一个模型识别普通话和粤语、上海话、四川话、西安话、闽南语等多种中国方言。

这让我迫不及待想和它港言港语、川里川气几句。

接下来我将基于1.19.5_mac版本的豆包 AI PC端，测试AI文本伴读、截图识别以及日前大热的AI看视频、AI方言识别等功能，看看豆包相较于各家网页版AI大模型提供了哪些新的东西。

老规矩，着急的朋友可以直接下拉到总结环节。

AI 文本伴读

首先是AI 文本的伴读。

我打开一条新闻，下拉到总结部分，选中我想要辅助的段落，豆包自动出现了搜索、翻译、解释、复制等功能。

在发现更多技能中，是AI划词工具栏，下设文本的扩缩写、修正、润色等功能6项，改写为社交媒体文案或视频脚本等功能3项，生成周报、okr、代码纠错等功能4项，优缺点总结、抽取任务项、头脑风暴等6项，加之难以归类的，一共有22项模块功能可自定义置顶设置。

我选择了最基础的要求豆包解释，经过约25秒的等待，我获得了以下这些内容。

可以看出，豆包首先概括大意，接着是对话性更强的通俗阐释，亮眼的是，它主动识别并解释了所选文字段落的专有名词，如上文的“帕累托规则”。

至此，豆包这个模块所提供的22项功能是否能在智能化和个性化上显现出更深的理解能力，还有待观察，但可以明确的是，PC端后台运行时，我不需要复制粘贴到另一个窗口来搜索，甚至摘出专有名词单独搜索或提问了。

AI图片识别

当我使用豆包截图时，弹出了解题答疑、翻译、问问豆包3个功能项，于是我选择了一道高中数学题请豆包解题答疑。

豆包不仅提供了截图区域的一道题的解题过程和答案，还提供了几道类似的题目及其解答。

但当我使用翻译和问问豆包时，不仅无法智能断句，还频繁出错。

考虑图片识别的难度，我切换了成段落的文本，然而并没有改善。

我又尝试了问问豆包，下设整理图中核心内容和提取文字两个模块，我分别进行了尝试。

总的来说，核心内容整理功能的表现优秀，但文字提取甚至没有识别完整的图片，而这还是排列工整的铅字文。

AI看视频

AI看视频的功能目前仅限于b站视频，且需要在豆包界面中打开并登录b站账号。

于是我随机选择了《晚酌的流派》第三季·第7集的内容，经过了约20秒的等待获得了以下内容。

可以看出，视频分段的时间轴中，AI的图文搭配并不准确，但基本上可以实现内容切分。

视频是日语配音，中文繁体字幕，大概也是为难豆包了。

视频开头对主旨有清晰概括，在右侧的文本总结中却并没有清晰体现。并且，在“对他人的感激”板块，视频中人物感谢的是鱼子小姐而不是牛田先生，豆包概括出错。

AI方言识别

官宣文中，豆包支持粤语、上海话、四川话、西安话、闽南语，接下来则看看豆包能不能识别我的蹩脚粤语（没有我的家乡话，只有半年香港生活经历带来的蹩脚粤语，期待更多土著的使用体验分享～）。

语言识别没有问题，豆包理解了“我想吃粥底火锅”，甚至提供了“北京哪里有好吃的粥底火锅？”的选择搜索项，但消息发送后跳转到了AI搜索的对话界面，且回复我的是文本而不是语音。

另外，方言输入只在首页可以使用，我无法在对话界面继续以方言进一步输入。因此我需要一次次回到首页，而每一次的消息发送都将打开一个新的导航页窗口。。。

不过，能够方言输入仍然是较大的突破，总体表现差强人意。据了解，豆包的app端是支持语音回复的。

我尝试在手机app端以方言语音输入了同一句话，豆包以普通话语音回复了我，并提供了“北京哪里有好吃的粥底火锅？”的选择搜索项。

也就是说，豆包支持方言输入，暂不支持方言交互。这一功能更多停留在趣味性和商务场合应用，譬如对方言参会者的会议记录整理。

总结环节

在我的想象中，桌面有一个AI 电子人偶，它像我的猫一样为我提供情绪价值，还真正助理我handle我的一切。它像 Siri 一样容易唤醒，但比 Siri 更强大。

豆包的 AI 文本伴读在PC端可以跨应用服务，提供了22项模块功能，除了基础文本润色，还场景化了社畜、程序员、自媒体工作者的适用范围，它有着我想象中的基本面，但也有很大的探索和成长空间。

图片识别方面，解题答疑是不错的，相当于PC端的作业某帮和某猿。但考虑到PC端的用户群体，则期待豆包在高等数学+方面有深入的耕耘。毕竟，普通作业和试卷的解题答疑还是手机来得快，配合电子版题目或论文，才会产生PC端的需求。

AI看视频的分段和总结功能十分抢眼，尤其是科普视频，豆包大有可为。人文社科主题则是各家大模型的共同难题。

事实上，AI方言是我最期待的功能，毕竟，“乡音无改鬓毛衰”，故乡有时是一串长长的菜单，有时是熟悉的“那味儿”。但整体看来，豆包的方言交互生态还有一段路要走。

方言对话所识别的，不仅是现代都市人的故乡情思。更重要的，是科技穿透冰冷的屏幕，对那些无法说出通用“中文”的人的关怀，他们以生命书写着无声的历史，却常常被历史遗忘，他们同样需要AI，以及AI附带的一切价值。

当方言从识别走到交互，豆包也许也会因此而走得更远。

如果你有观点、想法或想看的测评，欢迎和我交流。如果你喜欢这期内容，别忘了一键三连，因为这也是我探索更新的动力，我们下期再见～

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

豆包PC端“开箱”，从语音卷到了方言

大 家 都 在 搜

大家都在搜