正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-03-29 14:06

马斯克突然发布Grok 1.5,能干得过GPT-4么?

本文来自微信公众号:APPSO (ID:appsolution),作者:时刻在线的APPSO,原文标题:《刚刚,马斯克突然发布 Grok 1.5 大模型,但除了这点都不如 GPT-4》,题图来自:视觉中国

文章摘要
马斯克旗下的xAI团队发布了Grok-1.5大模型,在推理和上下文理解能力上有显著提升。Grok-1.5在编码和数学任务处理能力上迈上了一个大台阶。

• 💪 Grok-1.5的能力碾压了之前的热门开源模型,包括Mistral Large和Claude 2,甚至与GPT-4一战。

• 📈 Grok-1.5在数学基准测试中取得了显著的得分提升,达到了50.6%和90%。

• 🔍 Grok-1.5展现了强大的检索能力,可以处理相当于300页文本的数据量。

就在刚刚,马斯克旗下的 xAI 团队突然发布了 Grok-1.5 大模型。


一周前,在众多质疑声中,马斯克如约开源了 GroK-1。今天发布的 Grok-1.5 则在推理和上下文理解能力上有了显著提升。


从基准测试结果来看,Grok-1.5 的能力迎来了巨大的飞跃,全然碾压了此前热门的开源模型 Mistral Large、Claude 2 等,即使面对“宿敌”GPT-4,也互有胜负。


可与 GPT-4 一战?


附上博客原文链接:https://x.ai/blog/grok-1.5


Grok-1.5 在编码和数学领域任务处理能力上迈上了一个比较大的台阶。


从基准测试的结果来看,Grok-1.5 在 MATH 基准测试中取得了 50.6% 的得分,在 GSM8K 基准上,Grok-1.5 获得了 90% 的得分,这两个测试都涵盖了从基础算术到高级数学的广泛领域。


此外,Grok-1.5 在评估代码生成和解决问题能力的 HumanEval 基准测试中得分为 74.1%,超越了 GPT-4。


对此,xAI 团队核心成员也为 Grok-1.5 摇旗呐喊:“我们最新的推理能力升级。在从 Grok 1 版本升级到 1.5 版本的过程中,数学推理能力从 24 %提升至 50%。”



Grok-1.5 另一个比较大的升级是其上下文窗口扩展至 128K,飙升 16 倍,提升到了与 GPT-4 Turbo 相同的档次,能够处理相当于 300 页的文本,相当于可以塞进一部中篇小说。


看起来强得可怕


在处理的文本量大幅提升之余,Grok-1.5 的能力也没落下。在大海捞针(NIAH)的测试中,Grok-1.5 展现了强大的检索能力,瞧瞧这清一水的蓝色,看起来强得可怕。


据 xAI 官方介绍,Grok-1.5 建立在基于 JAX、Rust 和 Kubernetes 构建的自定义分布式训练框架之上。


在大型计算集群上训练 LLMs 时,确保训练作业的高可靠性和长时间的正常运行是一项主要挑战。xAI 团队的自定义训练协调器能够自动检测并排除训练过程中的问题节点。


此外,xAI 团队还优化了检查点创建、数据加载和训练作业重启流程,以减少任何故障导致的停机时间。


Grok-1.5 未来几天内将会向一部分群体开放,后续也将逐步向公众开放。


作为对比,开源的 Grok 1.0 是拥有 314B 参数的先进混合专家模型,也是截至目前参数量最大的开源大型语言模型,其规模相当于 Meta LlaMA 2 70B 的 4.4 倍。


根据 Apache 2.0 许可协议, 现在公众可以自由访问模型的权重和架构。以下是关于 Grok 1.0 的一些关键信息:


  • 模型参数数量高达 314B


  • 混合专家模型(MoE 架构)


  • 每一个数据单元由 2 位专家处理


  • 嵌入向量的维度为 6144


  • 采用旋转式嵌入表示


在 MMLU、GSM8K 等一系列的基准测试中,Grok 1 的表现远胜于 LLaMA 2 70B,但和 Claude 2 以及 GPT-4 仍有不小的差距。


卧虎藏龙的 xAI


去年初,The Infomation 就曾报道马斯克正在积极“招兵买马”,意图筹建一个新的研究实验室,以推出 ChatGPT 的劲敌。



xAI 的官网曾详细介绍了拥有 12 名核心成员的初创团队。除了马斯克之外,其他 11 名成员的背景如下:


Igor Babuchkin:人工智能研究者,在 DeepMind 和 OpenAI 工作时累积过丰富的经验。参与过 AlphaStar 项目(用 AI 在星际争霸上击败人类冠军)


Manuel Kroiss:软件工程师。曾在 Google 和 DeepMind 等科技巨头工作,在强化学习和人工智能领域作出过重要贡献。论文Reverb: A Framework for Experience Replay的联合作者。


Yuhuai(Tony)Wu:人工智能研究者、计算机科学家。因其在 Google N2Formal 团队和一家秘密初创公司作为自动化数学家和形式推理方面的工作而闻名。


Christian Szegedy:在深度学习、人工智能、计算机视觉、影像分析和形式推理方面拥有专业知识。曾就职于 Google, 担任研究科学家。拥有波恩大学应用数学博士学位。


Jimmy Ba:多伦多大学助理教授。正在领导一项有关深度神经网络高效学习算法的开发研究。CIFAR-AI(加拿大高等研究院人工智能与社会项目)主席,2016 年 Facebook 机器学习研究生奖学金获得者。


Toby Pohlen:曾任 DeepMind 研究工程师,在机器学习、强化学习领域拥有丰富经验。参与 AlphaStar League 和 Ape-X DQfD 等项目。以全班第一名的成绩毕业于德国亚琛工业大学计算机科学专业。


Ross Nordeen:曾任特斯拉的技术项目经理,将帮助团队构造过滤器。


Kyle Kosic:曾就职于 OpenAI 等 AI 公司。拥有丰富的机器学习、物理学和应用数学的学术背景。



Greg Yang:曾就职于微软研究院,于 2018 年荣获摩根奖(Morgan Prize)荣誉奖。


Guodong Zhang:机器学习和人工智能领域的研究者,曾就职于多伦多大学和矢量研究所(Vector Institute),因研究大语言模型的训练、调整、对齐而闻名,撰写过多篇相关领域的论文。他是 2022 年 Apple 博士奖学金,2020 年 Borealis 人工智能奖学金的获得者。


Zihang Dai:曾任 Google 研究员,拥有清华大学和卡内基梅隆大学的学位,在百度美国分公司和蒙特利尔大学的 mILA 进行过研究实习。


当然,仅靠这 11 个核心成员就想推出 Grok AI 助手显然是不切实际的,所以 xAI 也同步开启了招人计划,招揽 AI 相关的技术人才加入。


现在,xAI 的技术团队也迎来了极速壮大,甚至光从名字的甄别上,你就能从中发现不少华人活跃的身影。



对于即将到来的 Grok-1.5 ,前 OpenAI 开发者关系主管直接在线点赞。



玩梗这种事,还是得看网友。



前不久,埃隆·马斯克在 X 发文称,本周晚些时候,Grok 将向 X 平台所有订阅高级服务的账户开放。


但这一次,比起免费的开放使用,我们更关心地是,Grok-1.5 短时间内还会开源吗?


本文来自微信公众号:APPSO (ID:appsolution),作者:时刻在线的APPSO

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: