2024-04-08
阿里通义千问开源了新的Qwen1.5-32B模型。通义千问此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数的6款大语言模型并均已升级至1.5版本,此次新增的320亿参数模型在性能、效率与内存占用间达到更优平衡。相较于14B模型,32B模型在智能体场景中表现更为出色;相较于72B模型,其推理成本则显著降低。Qwen1.5-32B模型不仅支持多语言处理,还融入了GQA(Generalized Question Answering)技术,显著提升推理效率并降低部署成本。通过整合GQA技术,Qwen1.5-32B模型在解决问题时展现出了更快速的推理能力,并且能够应对更为广泛的问题类型,包括编程和数学等复杂领域的问题。
谷歌 DeepMind 发布了文本嵌入模型Gecko ,通过将文本转换为高维向量空间中的向量表示,实现捕捉文本的语义信息,专注于文档检索、语义相似度和分类等多种任务。Gecko 是一个基于 1.2B 参数预训练的 Transformer 语言模型,DeepMind提出了一种生成合成数据来训练多任务文本嵌入模型的新方法,将 FRet 与其他学术训练数据集以相同的格式结合起来:任务描述、输入查询、正向段落(或目标)和负向段落(或干扰项),从而创建一种新的微调混合,使用这种混合与标准损失函数来训练嵌入模型 Gecko。Gecko 在每个文本嵌入任务上都显著超越了所有类似大小的基线模型(<= 1k 嵌入尺寸,<= 5B 参数)。与 text-embedding-3-large-256(OpenAI)、GTR 和 Instructor 研究相比,Gecko-1b-256 性能更好。Gecko-1b-768 通常可以匹配或超过更大模型的性能,包括 text-embedding-3-large (OpenAI)、E5-mistral、GRit 和 Echo 嵌入。在大规模文本嵌入基准上,256维Gecko优于768维现有模型。
谷歌发布了一款名为Scenic的研究代码库,该库利用JAX和Flax进行开发,致力于加速大规模视觉模型的原型设计过程。Scenic具备强大的视频内容识别能力,能够生成详细的描述。此外,该库提供了一系列实用的工具和模型,涵盖了各类SOTA模型和基线模型,以及针对图像、视频处理和多模态组合的分类、分割和检测模型,为用户提供了全面的解决方案。Scenic的核心目标在于推动大规模视觉模型的快速原型设计,同时注重代码的简洁性和可扩展性。
斯坦福大学的研究团队推出20亿参数的开源语言模型Octopusv2,该模型专为在Android设备上运行而设计,同时也适用于汽车、个人电脑等其他端侧设备,在准确性和延迟方面的表现超越了GPT-4,并且在上下文长度上减少了95%。相较于传统云端AI模型,Octopusv2端侧AI模型能够直接在本地设备上处理数据,摆脱网络束缚,加速数据处理速度并保护隐私安全。在开发过程中,团队独创函数token策略,提升模型在训练和推理过程中的复杂函数调用生成效率。为确保模型性能,团队精心构建高质量数据集,并利用Google Gemini进行二进制验证。此外,研究团队还编写了20个Android API描述,以强化模型在实际应用中的效能和精确度。Octopusv2以Google Gemma-2B模型为预训练基石,结合完整模型训练与LoRA模型训练双重策略。在性能评估中,Octopus-V2-2B展现卓越推理速度,比Llama7B+RAG解决方案快36倍,函数调用准确率更领先31%。
AssemblyAI推出Universal-1,该模型采用了 Conformer RNN-T 架构,通过大规模的自监督学习框架和标记数据,借助Google Cloud TPUs和 JAX进行训练。测试结果显示Universal-1比Whisper Large-v3更准确,比fast Whisper更快,38秒可以处理60分钟音频。Universal-1的训练基于1250万小时的多语言音频数据,在英语、西班牙语和德语的语音转文字准确性上均取得10% 以上的提升,能够在单个音频文件中转录多种语言。Universal-1还具有精确的时间戳估计能力,通过优化的解码器实现了13% 的时间戳准确度提升,比 Whisper Large-V3提高了26%。此外,Universal-1还实现了高效的并行推理,比 Whisper Large-V3在相同硬件上实现了5倍的加速。
来自KAUST和哈佛大学的研究人员提出了MiniGPT4-Video,这是一款专为视频理解而设计的多模态大语言模型 (LLM)。该模型能够处理时间视觉和文本数据,使其擅长理解视频的复杂性。 MiniGPT-v2 擅长将视觉特征转化为单个图像的 LLM 空间,扩展了模型处理帧序列的能力,使其能够理解视频。 MiniGPT4-video 不仅考虑视觉内容,还包含文本对话,使模型能够有效地回答涉及视觉和文本组件的查询。所提出的模型优于现有的最先进方法,在 MSVD、MSRVTT、TGIF 和 TVQA 基准上分别获得了 4.22%、1.13%、20.82% 和 13.1% 的增益。当前该模型的代码已公开。
纽约时报报道了涉及到AI 版权法模糊灰色区域的内容,称OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,OpenAI 使用了包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。据称,OpenAI 公司知道这在法律上存在问题,但认为这是合理使用。YouTube 首席执行官 Neal Mohan 近日在采访中公开表示,尽管没有直接证据表明 OpenAI 使用 YouTube 视频来训练 Sora(文本生成视频的 AI 模型),但警告称这种行为违反了 YouTube 现行的平台服务条款。
AI燎原