No.55

2024-05-06

AI深度研究员人工智能领域内的最新进展是什么？每日AI精选带给你

AI精选（54）-人工智能领域内的最新进展

主理人：

AI深度研究员

今日精选，深度丰富、精彩纷呈！我们诚邀大家继续关注并订阅我们内容，AI时代不落后，让每一天都充满启发和价值

一、ChatGPT即将发布的新 UI

更新内容有：

原来的历史记录和设置被折叠。

GPTs 选择被整合到了模型选择中。

设置被放到了右上角。

聊天界面从原来的纯文字改成了气泡模式。

增加了对话的沉浸感，但是对频繁查找历史记录和切换 GPTs 的人不太友好，可能是希望多用@功能吧。

二、iOS 18 的 Siri 将通过 Apple 的 Ajax LLM 获得大规模 AI 升级

升级的范围和目标：

Siri、Safari、Spotlight 搜索和信息等苹果系统内置应用将通过引入 Ajax LLM 获得显著改进。Apple 旨在利用生成式人工智能来增强这些广泛部署在全球数十亿设备上的默认应用程序。

新功能和改进：

预计将引入文本总结、文档分析和增强的搜索选项等特性，直接为最终用户带来实际好处。Safari 将推出智能浏览功能，包括文章总结，用户可以生成当前屏幕上任何网页的简要总结。Siri 也将更新，更紧密地与内置的信息应用程序集成。

隐私和数据处理：

Apple 强调通过设备内 LLM 处理数据，以保护用户隐私。相对于云处理，设备内处理可以减少隐私相关问题的风险。

市场竞争与前景：

Apple 的这一系列 AI 相关改进意在与市场上越来越多的 AI 启用应用竞争。通过提供设备内处理的 AI 功能，Apple 希望超越现有的生成式 AI 实现，特别是那些以物理产品形式出现的 AI 主题产品。

这些升级预计将在今年晚些时候的全球开发者大会（WWDC）上首次亮相。需

来源：https://appleinsider.com/articles/24/05/03/siri-for-ios-18-to-gain-massive-ai-upgrade-via-apples-ajax-llm

三、人工智能将无处不在，但需要无处不在的连接和计算

Omdia 在 2024 年 5 月 2 日发表的原创文章指出，人工智能的未来在于连接与计算的融合，电信运营商有能力将这一愿景变为现实。华为在 2024 年分析师大会上就智能时代的发展提出了大胆的设想，认为人工智能将无处不在，但需要无处不在的连接和计算。然而，由于缺乏泛在的连接，现有技术很难捕捉到更多的数据模态，没有这些新型的数据模态，人工智能开发者就无法建立更智能的人工智能系统来进行感知和学习周围环境的输入内容并据此采取行动。此外，目前人工智能的大部分提升都集中在云数据中心，虽然当前这些科技的进展对人工智能的普及化仍然非常重要，但业界需要一种更全面的方法来设计和部署从云端到边缘的人工智能基础设施，特别是对于边缘人工智能用例。

来源：https://www.eet-china.com/mp/a311122.html

四、根据《福克斯商业》的报道，Sam's Club 计划在2024年底前在所有门店引入人工智能进行出口检查

Sam's Club 在今年1月的消费电子展上展示了一种新的AI驱动扫描系统，该系统设置在商店出口处，能够捕捉购物车内的图像并验证篮子中所有物品的支付情况。

目前，这项新技术已在Sam's Club 20%的门店中推出，预计到2024年底将覆盖公司旗下的600家门店。

在已部署AI扫描器的120家门店中，超过一半的顾客已经通过这些扫描器，整体会员等待时间缩短了23%。这种AI出口技术的快速部署代表了零售行业中面向会员的AI技术最大规模的应用。

来源：https://www.foxbusiness.com/technology/sams-club-ai-exit-checks-all-stores-2024,

五、Adobe 的新工具： Project Neo

通过3D技术，Project Neo能够为原本平面的2D图像添加立体效果。

能够快速的为图标、动画插图创建独特的3D形状。

通过简单的操作，你可以在几分钟内完成图标、插图设计，极大地提高了工作效率。

Project Neo与Adobe的桌面和网络应用程序无缝集成，支持无缝导出高质量的SVG文件和像素完美的图像。

试用：projectneo.adobe.com

六、微软开发出数据驱动的AI天气预测模型，能准确预报未来 30 天天气情况

该模型基于微软 Start 团队近日的最新研究成果，结合了 5 种不同的人工智能模型和 3 种深度学习架构，并利用了过去数十年的天气数据进行训练，能够准确预测 30 天内的天气预报。

在预估未来 1 周天气预报方面，新 AI 模型所测量的气温准确率比欧洲中期天气预报中心（ECMWF）高 17%，未来 4 周天气预报准确率高 4%。

相比目前普遍使用的 NWP / ECMWF 模型需要超级计算机才能运行，该模型可以在单个NVIDIA V100图形处理单元上在不到2小时内产生100个30天的预测。

论文：https://arxiv.org/abs/2403.15598

七、英伟达和MIT推出一种新的视觉语言模型：VILA

该模型具备情景学习能力，可在多个图像之间推理、而且还能理解视频。

VILA模型可以处理并理解多个图像之间的关系，执行复杂的图像间推理任务。

模型还具有根据给定上下文进行学习和适应的能力。

这使得VILA在处理如图像描述、问答等需要理解具体情境的任务时表现出色。

论文: https://arxiv.org/abs/2312.07533

代码: https://github.com/Efficient-Large-Model/VILA…

八、特斯拉放出了擎天柱机器人最新训练视频

他们团队构建了更多的机器人，收集了更多AI数据，并训练部署了神经网络，使Optimus机器人开始执行实用任务。这些任务包括从传送带上捡起电池单元并准确地将其放入托盘中。

** 技术细节：**

Optimus使用的神经网络完全是端到端运行，只利用机器人的2D摄像头视频和机载自传感器，直接生成关节控制序列。

这个神经网络完全运行在机器人嵌入式FSD计算机上，并由机载电池供电。设计上可以让单一神经网络在训练过程中加入更多多样化数据后执行多项任务。

** 性能特点**

尽管目前还不够完美且有些慢，但Optimus在执行任务时的成功率逐渐提高，失误率降低。

此外，团队还在训练Optimus从失败中恢复，并已观察到自发的纠错行为。

Optimus已经可以在办公室里长距离行走而不跌倒，并持续在真实工作站上测试和改进。

**进一步的工作：**

团队正致力于提高Optimus的移动速度，处理更复杂的地形，同时不牺牲其类人的行为特性。同时，也在关注整个机器人群体的重复性能力，训练神经网络处理动态校准和小的机器人间差异。

链接：https://twitter.com/Tesla_Optimus/status/1787027808436330505

九、将Llama-3 的上下文长度从8K扩展到超过100万上下文窗口

Gradient AI最近将Llama-3 8B和7B模型通过渐进式训练方法不断将其上下文长度从8k一路扩展到262k、524k

今天他们宣布成功地将Llama-3 系列模型的上下文长度扩展到超过1M...

Llama 3模型最初被训练用于处理8000个令牌的默认上下文长度，约相当于6,000字或10页文档。

Gradient为了解锁更长上下文的使用场景，扩展了Llama 3模型的上下文窗口到超过100万。这种扩展使得模型可以处理相当于《哈利·波特》系列前五本书的内容量。

项目地址：https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-1048k

该内容为专享内容

购买AI深度研究员的简报专栏即可查看全部内容