2024-04-08

AI燎原 AI 早报

斯坦福大学推出20亿参数端侧模型Octopusv2;通义千问推出Qwen1.5-32B;DeepMind推出Gecko

主理人:
虎嗅出品,每日推送AI领域资讯新闻,追踪AI的每一步进展。

巨头动态

1.【阿里通义千问推出Qwen1.5-32B模型,实现7款大语言模型全开源】

阿里通义千问开源了新的Qwen1.5-32B模型。通义千问此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数的6款大语言模型并均已升级至1.5版本,此次新增的320亿参数模型在性能、效率与内存占用间达到更优平衡。相较于14B模型,32B模型在智能体场景中表现更为出色;相较于72B模型,其推理成本则显著降低。Qwen1.5-32B模型不仅支持多语言处理,还融入了GQA(Generalized Question Answering)技术,显著提升推理效率并降低部署成本。通过整合GQA技术,Qwen1.5-32B模型在解决问题时展现出了更快速的推理能力,并且能够应对更为广泛的问题类型,包括编程和数学等复杂领域的问题。

 

2.【谷歌DeepMind推出文本嵌入模型Gecko,在文本嵌入任务上超越所有同等大小的基线模型】

谷歌 DeepMind 发布了文本嵌入模型Gecko ,通过将文本转换为高维向量空间中的向量表示,实现捕捉文本的语义信息,专注于文档检索、语义相似度和分类等多种任务。Gecko 是一个基于 1.2B 参数预训练的 Transformer 语言模型,DeepMind提出了一种生成合成数据来训练多任务文本嵌入模型的新方法,将 FRet 与其他学术训练数据集以相同的格式结合起来:任务描述、输入查询、正向段落(或目标)和负向段落(或干扰项),从而创建一种新的微调混合,使用这种混合与标准损失函数来训练嵌入模型 Gecko。Gecko 在每个文本嵌入任务上都显著超越了所有类似大小的基线模型(<= 1k 嵌入尺寸,<= 5B 参数)。与 text-embedding-3-large-256(OpenAI)、GTR 和 Instructor 研究相比,Gecko-1b-256 性能更好。Gecko-1b-768 通常可以匹配或超过更大模型的性能,包括 text-embedding-3-large (OpenAI)、E5-mistral、GRit 和 Echo 嵌入。在大规模文本嵌入基准上,256维Gecko优于768维现有模型。

 

3.【谷歌发布Scenic研究代码库,推动大规模视觉模型的快速原型设计】

谷歌发布了一款名为Scenic的研究代码库,该库利用JAX和Flax进行开发,致力于加速大规模视觉模型的原型设计过程。Scenic具备强大的视频内容识别能力,能够生成详细的描述。此外,该库提供了一系列实用的工具和模型,涵盖了各类SOTA模型和基线模型,以及针对图像、视频处理和多模态组合的分类、分割和检测模型,为用户提供了全面的解决方案。Scenic的核心目标在于推动大规模视觉模型的快速原型设计,同时注重代码的简洁性和可扩展性。

 

技术突破

1.【斯坦福大学推出20亿参数开源端侧AI模型Octopusv2】

斯坦福大学的研究团队推出20亿参数的开源语言模型Octopusv2,该模型专为在Android设备上运行而设计,同时也适用于汽车、个人电脑等其他端侧设备,在准确性和延迟方面的表现超越了GPT-4,并且在上下文长度上减少了95%。相较于传统云端AI模型,Octopusv2端侧AI模型能够直接在本地设备上处理数据,摆脱网络束缚,加速数据处理速度并保护隐私安全。在开发过程中,团队独创函数token策略,提升模型在训练和推理过程中的复杂函数调用生成效率。为确保模型性能,团队精心构建高质量数据集,并利用Google Gemini进行二进制验证。此外,研究团队还编写了20个Android API描述,以强化模型在实际应用中的效能和精确度。Octopusv2以Google Gemma-2B模型为预训练基石,结合完整模型训练与LoRA模型训练双重策略。在性能评估中,Octopus-V2-2B展现卓越推理速度,比Llama7B+RAG解决方案快36倍,函数调用准确率更领先31%。

 

2.【AssemblyAI重磅推出Universal-1,处理60分钟音频仅需38秒】

AssemblyAI推出Universal-1,该模型采用了 Conformer RNN-T 架构,通过大规模的自监督学习框架和标记数据,借助Google Cloud TPUs和 JAX进行训练。测试结果显示Universal-1比Whisper Large-v3更准确,比fast Whisper更快,38秒可以处理60分钟音频。Universal-1的训练基于1250万小时的多语言音频数据,在英语、西班牙语和德语的语音转文字准确性上均取得10% 以上的提升,能够在单个音频文件中转录多种语言。Universal-1还具有精确的时间戳估计能力,通过优化的解码器实现了13% 的时间戳准确度提升,比 Whisper Large-V3提高了26%。此外,Universal-1还实现了高效的并行推理,比 Whisper Large-V3在相同硬件上实现了5倍的加速。

3.【KAUST与哈佛联合研发MiniGPT4-Video,专为视频理解而设计】

来自KAUST和哈佛大学的研究人员提出了MiniGPT4-Video,这是一款专为视频理解而设计的多模态大语言模型 (LLM)。该模型能够处理时间视觉和文本数据,使其擅长理解视频的复杂性。 MiniGPT-v2 擅长将视觉特征转化为单个图像的 LLM 空间,扩展了模型处理帧序列的能力,使其能够理解视频。 MiniGPT4-video 不仅考虑视觉内容,还包含文本对话,使模型能够有效地回答涉及视觉和文本组件的查询。所提出的模型优于现有的最先进方法,在 MSVD、MSRVTT、TGIF 和 TVQA 基准上分别获得了 4.22%、1.13%、20.82% 和 13.1% 的增益。当前该模型的代码已公开。

 

AI安全与伦理

1.【OpenAI转录超百万小时YouTube视频引发争议】

纽约时报报道了涉及到AI 版权法模糊灰色区域的内容,称OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,OpenAI 使用了包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。据称,OpenAI 公司知道这在法律上存在问题,但认为这是合理使用。YouTube 首席执行官 Neal Mohan 近日在采访中公开表示,尽管没有直接证据表明 OpenAI 使用 YouTube 视频来训练 Sora(文本生成视频的 AI 模型),但警告称这种行为违反了 YouTube 现行的平台服务条款。

AI燎原

一群来自虎嗅科技组的同学,制作了这个源流。我们想以观察者、亲历者视角,对 AI,尤其是 GenAI 进行祛魅——发布、提炼我们看到的 AI 进展,助你一手掌握 AI 的技术与行业动态,并一同迎接 AGI 的到来。