No.54

2024-05-05

AI深度研究员人工智能领域内的最新进展是什么？每日AI精选带给你

AI精选（54）-人工智能领域内的最新进展

主理人：

AI深度研究员

今日精选，深度丰富、精彩纷呈！我们诚邀大家继续关注并订阅我们内容，AI时代不落后，让每一天都充满启发和价值

一、奢侈品巴宝莉（Burberry ）的AI 广告“Burberry Hero”,氛围和细节确实到位，有那味了

Niccolo Valentino 的 AI Spec 广告，这是我们 AI 广告课程的杰出任务，它将重新定义精致！优雅的视觉效果和精致的声音设计体现了 Burberry 的高端本质，使其几乎与非 AI 奢侈品广告难以区分。

二、李飞飞正在创建“spatial intelligence”AI初创公司

李飞飞，斯坦福大学的计算机科学教授及其以人为本的AI研究所的联合主任，正在开发一家初创公司，该公司利用类似人类的视觉数据处理来使人工智能具备高级推理能力。

李飞飞被誉为“AI先驱”，她最近为这家公司募集了一轮种子资金。这家初创公司专注于通过模拟人类视觉数据处理方式来提升AI的认知和推理能力，这一进展有望对AI技术产生重大影响。

来源：https://www.reuters.com/technology/stanford-ai-leader-fei-fei-li-building-spatial-intelligence-startup-2024-05-03/

三、ChatGPT通过介入性心脏病学认证考试

ChatGPT在参加介入性心脏病学认证考试中表现出色，尤其是在难度较高的问题上。在那些不到75%的考生回答正确的问题上，ChatGPT的正确率达到了75%。相比之下，在超过75%的考生回答正确的较易问题上，ChatGPT的正确率为77.3%。总体而言，参与考试的考生平均正确率为82.2%，而ChatGPT的平均正确率为76.7%。然而，当要求ChatGPT重新回答ACC/SCAI问题时，其表现有所下降，正确率从76.7%降至65%，表明在重复测试中出现了一些答题不一致的情况。

此外，OpenAI在4月份宣布了GPT-4 Turbo的更新，承诺在写作、数学、逻辑推理和编码方面的能力有所改进，这可能会进一步提高ChatGPT在此类考试中的表现。

来源：https://cardiovascularbusiness.com/topics/clinical/interventional-cardiology/chatgpt-passes-interventional-cardiology-certification-exam

四、AI驱动的战斗机搭载空军领导人进行历史性飞行

在加利福尼亚州爱德华兹空军基地，一架由人工智能控制的实验性F-16战斗机进行了飞行测试，机上乘坐的是空军部长弗兰克·肯德尔。这架名为Vista的战斗机展示了人工智能在空战中的潜力，执行了多种复杂机动，如在超过550英里每小时的速度下进行空中对抗。这次飞行标志着军事航空自1990年代初引入隐身技术以来的一大飞跃。尽管该技术尚未完全发展完善，但空军计划到2028年前拥有超过1000架无人战机。

肯德尔部长在飞行后表示，他对这种仍在学习中的人工智能有足够的信任，相信它能在战争中做出是否发射武器的决定。然而，使用AI在战场上做出生死决定引发了广泛和严重的关切，国际红十字会等组织呼吁对其使用进行更多限制。

从安全、成本和战略能力的角度出发，美国空军正推动向AI驱动的飞机转变。面对电子战、空间和防空系统的进步

来源：https://apnews.com/article/artificial-intelligence-fighter-jets-air-force-6a1100c96a73ca9b7f41cbd6a2753fda

五、摩根大通推出人工智能驱动投资工具-IndexGPT

一款名为IndexGPT的人工智能工具，旨在促进主题投资。这款工具使用OpenAI的GPT-4模型生成与特定主题相关的关键词列表，然后通过自然语言处理模型扫描新闻文章来识别涉及该主题的公司。IndexGPT不仅限于已知的股票选择，而是提供更广泛的股票选择范围。随着主题投资策略在近年变得越来越受欢迎，尽管由于表现不佳和利率上升，这类策略的兴趣有所下降，摩根大通希望通过IndexGPT重新点燃人们对主题投资的兴趣。

此外，摩根大通计划在其指数产品中长期整合AI技术，从股票波动性产品到商品动量产品，都将逐步并审慎地改进。其他金融机构，如摩根士丹利，也在投资领域部署类似技术，其AI助手帮助金融顾问和支持人员获取研究报告和文档。在风险投资领域，AI已成为分析初创公司和市场趋势的重要工具。

来源：https://www.pymnts.com/news/artificial-intelligence/2024/jpmorgan-chase-unveils-ai-powered-tool-thematic-investing/

六、HeyGen也搞了了自动剪辑视频的工具

Instant Highlights 1.0

上传或者粘贴视频链接，选择语言

可以把你的视频自动剪辑成各种语言配音的小片段

可以是各种横宽比，适合分发到多种平台

官网：https://www.heygen.com/

七、Frame：具备视觉能力和实时联网问答的开源AR眼镜

Brilliant Labs发布了一款为Frame的开源AR眼镜，结合了人工智能和增强现实技术。通过集成Perplexity、ChatGPT、Whisper等 AI 模型，Frame能够对用户正在查看的事物提供详细的问题解答。无论是口语还是文字，Frame都能提供实时翻译服务。同时结合其云端的Noa AI助手，还能实现更强大的AR功能。

而且他们开源了整个项目。

官网：https://brilliant.xyz/

八、介绍一只机器狗DrEureka，让它在瑜伽球上保持平衡并行走

这是我们利用 LLM 推动机器人学习前沿的最新努力！ DrEureka 使用 LLM 自动设计奖励函数并调整物理参数，以实现从模拟到现实的机器人学习。

DrEureka 可以为多个机器人和任务提出有效的从模拟到现实的配置，我们甚至还发挥了一点创造力：让我们制作一只机器狗，让它在瑜伽球上行走和保持平衡！

传统上，模拟到现实的转移是通过域随机化实现的，这是一个繁琐的过程，需要专业的人类机器人专家盯着每个参数并手动调整。像 GPT-4 这样的前沿 LLM 拥有大量内置的物理直觉，包括摩擦、阻尼、刚度、重力等。我们 (略微) 惊讶地发现 DrEureka 可以熟练地调整这些参数并很好地解释其推理。它使我们通过 AI 代理系统自动化整个机器人学习流程的目标又迈进了一步。一个输出字符串的模型将监督另一个输出扭矩控制的模型。

代码库： https://eureka-research.github.io/dr-eureka/

代码：github.com/eureka-research/DrEureka

九、hierarchical-3d-gaussians：使用高斯泼溅分层渲染高质量宏大场景

这个研究太强了，可以实现几乎实时的 3D 高斯泼溅渲染。只需要在车上装上设备正常前进就行，中等质量的渲染可以保证每秒60帧，高质量的可以保证30帧。项目能够在保持大型场景的视觉质量的同时，通过高效的细节层次方案，实现远处内容的高效渲染，确保层级间的平滑过渡和明确的层级选择。

项目地址：https://repo-sam.inria.fr/fungraph/hierarchical-3d-gaussians/

十、通过多词元预测实现更快更好的LLM

LLM基本都是自回归地预测下一个token，每次只预测一个，Meta的这篇论文提出一次性预测多个词元甚至是句子，因为预测的内容更多，LLM可以更全面的考虑整体结构，从而更有逻辑性。

这种推理方式更像人类思考的方式。

论文：https://arxiv.org/abs/2404.19737

该内容为专享内容

购买AI深度研究员的简报专栏即可查看全部内容