字节跳动推出新型语音生成模型Seed-TTS；腾讯混元开源文生图大模型混元DiT加速库；谷歌AI概览功能触发频率大幅下降

主理人：

昆德拉的异托邦

虎嗅出品，每日推送AI领域资讯新闻，追踪AI的每一步进展。

巨头动态

1.【字节跳动推出新型语音生成模型Seed-TTS,擅长感情控制】

继ChatTTS之后，字节跳动团队提出了一种名为Seed-TTS的新型语音生成模型。该模型基于自回归Transformer架构，能生成接近人类自然度的语音，尤其在情感控制和跨语言创作上表现突出。Seed-TTS通过自我蒸馏和强化学习提升发音自然性和可控性，同时非自回归变体进一步增强性能。其推理过程涵盖语音分词、自回归语言模型、扩散变换器和声学波形合成，实现高质量语音生成。Seed-TTS在多种语音特征控制上表现出色，适用于零样本学习、发音调整及情感控制。

2.【腾讯混元开源文生图大模型混元DiT加速库】

腾讯发布了针对其混元文生图开源大模型（简称混元DiT模型）的专用加速库，显著提升了模型的推理效率，使生图时间大幅缩减75%。此举不仅优化了模型性能，还降低了用户的使用门槛。通过采用知识蒸馏技术和TensorRT高性能推理框架，腾讯实现了DiT模型的采样步数压缩与高效推理部署。蒸馏技术的运用使得扩散模型的迭代步数减少，进而达到加速效果，同时保持模型整体结构和参数量不变。用户在无需额外操作和设备升级的情况下，即可享受蒸馏权重带来的性能提升，迭代步数降低50%，耗时减半。而TensorRT推理加速方案的引入，则通过工程优化进一步缩短了推理时间，并且与模型权重解耦，灵活性更高。此外，腾讯还宣布了两项降低用户使用门槛的举措。一方面，通过与社区合作，用户现在可以通过ComfyUI的图形化界面轻松使用混元文生图模型的能力；另一方面，混元DiT模型已成功部署到HuggingFace的官方模型库Diffusers中，用户只需三行代码即可直接调用该模型。

3.【谷歌AI概览功能触发频率大幅下降】

谷歌对人工智能在搜索结果中的呈现方式进行了调整，目前AI概述功能仅出现在不到15%的查询结果中，较之前84%的展示率大幅下降。这一变化旨在提高搜索质量，并反映人工智能在搜索中作用的不断演进。据企业SEO平台BrightEdge及其生成解析器的数据分析显示，自4月中旬起，不含AI概述的搜索结果数量显著增多，并持续至5月Google I/O大会期间。会上，谷歌宣布在美国推出AI概述功能。此外，数据还揭示了AI概述出现的特定模式。当查询包含精选摘要时，AI概述的出现概率高出195%，基于问题的查询也更容易触发AI概述。不过，行业分析显示，医疗保健领域虽仍为主要展示领域（63%），但较1月份的76%有所降低。而在餐厅和旅游领域的展示率则不足1%。BrightEdge指出，谷歌已减少AI引文与传统搜索结果的重叠，减少在两种结果中显示相同答案的情况。对于意图明确的查询，如“什么”、“哪里”和“如何”，谷歌现更频繁地预测并展示后续问题，为用户提供更深入的搜索体验。

技术突破

1.【Stability AI推出Stable Audio Open，进军音频领域】

Stability AI在文生图模型基础上发力，发力，推出了Stable Audio Open开源音频生成模型。此模型能基于用户提示词生成高质量音频样本，最长可达47秒，适用于鼓点、乐器旋律、环境音及拟声音效。Stable Audio Open基于transforms扩散模型（DiT），在自动编码器潜在空间中操作，确保音频质量和多样性。该模型专注于短音频片段和音效的生成，不适合创作完整歌曲或人声旋律。Stability AI公司表示，Stable Audio Open与Stable Audio 2.0定位不同，后者能生成长达3分钟的完整音频，展现了其在音频生成技术领域的全面布局。

2.【Ouroboros3D：通过3D感知实现图像到3D的生成】

Ouroboros3D是一个集成了多视角图像生成和3D重建的统一3D生成框架。通过递归扩散过程，实现了从图像到3D的生成。研究人员提出的这种新方法具有多个优点，包括生成更多样化和真实的视角图像，减少噪声和失真，提高生成效率。实验证明Ouroboros3D生成的3D模型具有更好的细节和准确性，接近真实的3D场景。

投融资信息

1.【Twelve Labs完成5000万美元A轮融资，提供多模态模型进行Al视频理解和搜索】

2024年6月4日，总部位于美国旧金山的AI视频理解和搜索初创公司Twelve Labs宣布筹集了5000万美元的A轮融资。本轮融资由新投资者New Enterprise Associates(NEA)和NVIDIA的风险投资部门NVentures共同领投，此前的投资方包括Index Ventures、Radical Ventures、WndrCo和Korea Investment Partners也参与了这一轮融资。该公司计划将筹集的资金用于持续的研发工作和扩大员工规模。

2.【AI音视频基础设施平台LiveKit获2250万美元A轮融资】

2024年6月4日，AI音视频基础设施平台初创公司LiveKit 宣布筹集了2250万美元的A轮融资。本轮融资由Altimeter领投，Redpoint以及包括Jeff Dean、Elad Gil、Aravind Srinivas、Amjad Masad、Guillermo Rauch、 Logan Kilpatrick、 Mati Staniszewski、Erik Bernhardsson、Rohan Anil、Mckay Wrigley、Demi Guo和Matt Shumer等专注于AI领域的杰出人士提供支持。

LiveKit公司计划将筹集的资金用于巩固其作为构建实时语音和视频应用的默认技术栈的地位，扩展其AI基础设施服务，并开发新产品以服务于新的用例。LiveKit成立于2021年，旨在构建一个类似于人体神经系统的实时平台，以支持人工智能模型的语音和视频输入输出。该公司的主营业务是提供灵活、开源的技术栈，使任何开发者都能够构建任何类型的实时语音或视频基础的应用程序。LiveKit已经被超过20000名开发者采用，包括一些最有价值的私人公司、财富50强企业、911紧急调度、A助手、支持和服务代理、视频游戏中的NPC、用于遥测和观察的自动驾驶汽车、卡车、拖拉机和太空船、安全摄像头和门锁，以及手术室中的外科机器人和人类外科医生。此外，LiveKit还与OpenAl和Character.ai团队合作，向他们的AI模型提供视觉、听觉和语言能力。

AI安全与伦理

1.【美国监管机构达成协议，对微软、OpenAI和英伟达展开反垄断调查】

纽约时报报道，美国司法部和联邦贸易委员会已达成协议，将对微软、OpenAI和英伟达在AI领域的市场主导地位进行反垄断调查。司法部将主导对英伟达的调查，而联邦贸易委员会将主导对OpenAI和微软的调查。此举旨在评估这些公司在市场中的行为是否违反了反垄断法，以维护公平竞争和消费者权益。

AI燎原

一群来自虎嗅科技组的同学，制作了这个源流。我们想以观察者、亲历者视角，对 AI，尤其是 GenAI 进行祛魅——发布、提炼我们看到的 AI 进展，助你一手掌握 AI 的技术与行业动态，并一同迎接 AGI 的到来。