No.53

2024-05-04

AI深度研究员人工智能领域内的最新进展是什么？每日AI精选带给你

AI精选（53）-人工智能领域内的最新进展

主理人：

AI深度研究员

今日精选，深度丰富、精彩纷呈！我们诚邀大家继续关注并订阅我们内容，AI时代不落后，让每一天都充满启发和价值

一、Open AI 的首页进行了改版，正准备取代Google搜索引擎地位

现在首页会直接展示一个搜索框，输入内容后会直接跳转到 ChatGPT 中回答问题。

还有其他几个Banner，点击漏出来的一点就可以切换。

新闻和博客的详情页右下角支持朗读页面内容。

右上角还支持对全站内容进行搜索。

网站：https://openai.com/

二、据报道，拜登总统去年首次体验了生成性AI技术之后，觉得现在AI技术简直难以置信，并对其功能印象深刻

拜登总统和他的科技顾问Arati Prabhakar使用ChatGPT执行了几项任务，例如解释一个法律案例。

这次体验促使拜登签署了一个关于AI安全的行政命令。他对生成性AI的潜在风险表示了关注，并要求相关团队解决这些问题。

他们让ChatGPT解释特拉华州与新泽西州之间的诉讼案件，用非常简单的语言表达；又让它为最高法院的一个案例写法律简报，用布鲁斯·斯普林斯汀的风格写歌，并生成拜登的狗“指挥官”在椭圆形办公室的图像。

他还在一个内阁会议中提到，AI将影响每一个部门和机构的工作，强调美国在这方面的领导地位。

来源：https://www.businessinsider.com/biden-chatgpt-ai-openai-sam-altman-executive-order-2024-5

三、最新消息，微软在马来西亚数字化转型中投资22亿美元

微软首席执行官萨蒂亚·纳德拉宣布将在未来四年内向马来西亚的云计算和人工智能基础设施投资22亿美元。

此项投资预计将极大促进马来西亚的科技产业发展，尤其是在人工智能和云服务领域。

该投资将专注于建立和扩大马来西亚的AI能力和云计算基础设施，预计将带动本地及周边地区的技术创新和经济增长。

来源：https://www.reuters.com/technology/microsoft-invest-22-bln-malaysias-digital-transformation-2024-05-02/

四、美国马里兰大学新近启动了一个人工智能研究所

该研究所专注于未来的技术——人工智能。马里兰大学校长Darryll Pines提到，AI系统在计算机和网络连接的帮助下已经取得了惊人的进展。

Pines也指出了人工智能的潜在危险，例如深度伪造（deep fakes）的制作和关于剽窃的问题。

学生和教职工展示了他们的工作，例如一个解决问题的机器人，它将公共卫生学院与人工智能技术相连接。

来源：https://www.yahoo.com/news/university-maryland-launches-ai-institute-025652497.html

五、福布斯新闻网，库克表示苹果公司即将在下周二公布的大规模人工智能计划

苹果CEO蒂姆·库克确认，人工智能将是此次发布活动的一个重要焦点。库克在季度财报电话会议中强调了即将到来的针对AI的重大计划。

在接下来的几天内宣布其新款iPad产品，包括新的iPad Pro和更大的iPad Air，以及新的Magic Keyboard和Apple Pencil。

据报道，新的iPad Pro将配备前所未有的强大芯片Apple M4，这将使设备具备处理众多AI功能的能力，许多功能将在设备上而非云端进行。

来源：https://www.forbes.com/sites/davidphelan/2024/05/02/ipad-2024-apple-will-reveal-big-ai-plans-in-days-tim-cook-confirms/

六、北京市人工智能大模型行业应用分析报告揭示了大模型技术在政务、金融、产业升级、医疗、文化教育和智慧城市等领域的应用前景和挑战

该报告由水木人工智能学堂发布，旨在分析北京市人工智能大模型行业的应用情况。报告指出，大模型技术在政务领域已逐步应用于提升政务服务的数字化和智能化水平，未来有望向公众提供更精准的服务。金融领域积极采用大模型以提高工作效率和决策质量，尤其在保险售前、智能投研等方面展现出巨大潜力。

大模型技术在产业升级中的应用具有强大的辐射效应，能够推动全产业链的数字化转型。医疗大模型面临数据治理和隐私保护的挑战，但其在辅助诊断和科研教学中的潜力正逐渐被挖掘。文娱产业对大模型的应用展现出快速发展趋势，同时教育领域也在探索大模型辅助教学的可能性。大模型技术在智慧城市建设中扮演着关键角色，尤其在交通管理、环境监测等方面展现出其强大的数据处理能力。

地址：https://mp.weixin.qq.com/s/P__0ryQwbefKjAdvzIdrwA

七、第一个使用 OpenAI Sora 制作的商业音乐视频

Sora 新视频，《the hardest part》音乐 MV。通过巧妙的创意决策，发挥优势连续视频并隐藏弱点一致的角色。

八、StoryDiffusion 这个字节的新项目表现很好啊

能够生成细节丰富、内容多样的图像和视频，同时保持角色身份和服饰的一致性。可以帮助生成长篇漫画或者带连续剧情的视频。

与IP-Adapter和PhotoMaker等方法相比，StoryDiffusion在保持角色一致性的同时，还能更好地控制文本提示，生成与描述更匹配的图像和视频。

关键组件：

Consistent Self-Attention是StoryDiffusion框架的核心组件之一，它通过在生成过程中引入参考图像的样本Token，增强了不同图像间的一致性。

Semantic Motion Predictor是StoryDiffusion中的另一个关键组件，它专门用于长距离视频生成。

项目地址：https://storydiffusion.github.io

九、Panza - 个性化电子邮件助手，可以在本地设备上运行

Panza 是一个自动化的电子邮件助手，可以根据用户的写作风格和电子邮件历史记录进行自定义。Panza 可以生成与用户写作风格相匹配的大语言模型（LLM），并配备一个 Retrieval-Augmented Generation（RAG）组件，以帮助生成相关的电子邮件。Panza 可以在单个 GPU 上训练和运行，该 GPU 具有 16-24 GiB 的内存，但也计划发布仅 CPU 版本。Panza 的训练和执行也很快，对于约 1000 封电子邮件的数据集，训练 Panza 需要的时间少于一个小时，生成新电子邮件最多需要几秒钟。

项目地址：https://github.com/IST-DASLab/PanzaMail

十、参数量不到 10 亿的中文对话模型 OctopusV3，并与 GPT-4V 和 GPT-4 进行了比较

本文首先介绍了 GPT-4V 和 GPT-4 的特点和优势，然后介绍了一款参数量不到 10 亿的中文对话模型 OctopusV3，并与 GPT-4V 和 GPT-4 进行了比较。OctopusV3 使用了一种基于注意力机制的模型架构，并采用了一种新颖的训练方法，使得其在中文对话任务上取得了不错的效果。与 GPT-4V 和 GPT-4 相比，OctopusV3 的参数量要小得多，但在中文对话任务上表现也不逊色。

地址：https://arxiv.org/pdf/2404.11459.pdf

十一、Prometheus 2 一个专门用于评估大语言模型质量的模型

之前也有一些开源的评测模型,但它们要么和人类评分差异很大,要么只能做固定形式的评测。

Prometheus 2的特点是:

1)它的评分和人类非常接近;

2)它既可以给文本直接打分,也可以比较两个文本哪个更好;

3)它可以根据用户给的具体标准来评分,而不局限于通用的标准。论文作者通过合并两个模型的参数得到了Prometheus 2:一个模型是用直接打分的数据训练的,另一个是用文本比较的数据训练的。

地址：https://github.com/prometheus-eval/prometheus-eval

该内容为专享内容

购买AI深度研究员的简报专栏即可查看全部内容