No.56

2024-05-07

AI深度研究员人工智能领域内的最新进展是什么？每日AI精选带给你

AI精选（56）-人工智能领域内的最新进展

主理人：

AI深度研究员

今日精选，深度丰富、精彩纷呈！我们诚邀大家继续关注并订阅我们内容，AI时代不落后，让每一天都充满启发和价值

一、OpenAI的Sora 正在研发一种技术，可以在视频中只更改一个元素（目前仍在研究阶段，未对外公开）

从演示视频看，可以更换视频中的人物，但是每次一些细节都不一样，比如街道的水渍、墙上的涂鸦都不一样。

二、消息称微软将推出自己的全新 AI 大模型「MAI-1」与谷歌、OpenAI 竞争该模型，由之前加入微软的 Inflection 的 CEO Mustafa Suleyman 负责

据称该模型规模巨大，可能超过5000 亿个参数，远超微软之前训练的开源模型，预计使用了巨大的训练数据和算力！

MAI-1 可能基于 Inflection 的技术和数据，但与 Inflection 原有的模型 Pi 是两个不同的项目。

今年 3 月微软支付 6.5 亿美元收购了Inflection的知识产权并雇佣了其大部分员工。成立了Microsoft AI，该部门将整合微软的消费者AI工作以及Copilot、Bing、Edge等产品。

来源：https://t.co/aba77GFcnD

三、HyperGAI 团队推出的 HPT 1.5 Air

HyperGAI 团队宣布推出 HPT 1.5 Air，这是一款基于 HPT Air 架构的最佳开源 8B 多模态 LLM 模型。该模型在各种基准测试中取得了惊人的性能，甚至在某些情况下击败了拥有更多参数的更大型私有模型。HPT 1.5 Air 的总参数量为 ~8.5B，属于小型模型范畴，但其性能与更大型模型相当。该模型采用了可视化编码器、H-Former 和 LLM 的结构，与其前身 HPT 1.0 Air 相比，该模型已升级了可视化编码器，并采用了最新版本的 LLaMA 3 8B LLM，并在更大的混合图像和文本数据集上进行了训练。该模型在多个基准测试中取得了最佳结果，甚至在某些情况下击败了更大或专有的模型。HPT 1.5 Air 的源代码已在 Apache 2.0 许可下公开发布，可以在 Github 和 Huggingface 上获得。HyperGAI 还正在训练 HPT Pro 模型，该模型具有更好的 OCR 功能、多图像理解能力、支持高分辨率输入等多个功能。

https://www.hypergai.com/blog/hpt-1-5-air-best-open-sourced-8b-multimodal-llm-with-llama-3

四、Play.ai 是一个先进的语音交互平台，它利用人工智能技术为用户提供流畅、自然的对话体验

该平台不仅能够理解用户的指令，还能根据上下文进行智能回应，为用户提供个性化的服务。Play.ai 的主要优点在于其高度的交互性和智能化，它能够适应不同用户的需求，提供定制化的对话服务。此外，Play.ai 还具有易于使用、快速响应等特点，使其成为企业和个人提升沟通效率的有力工具。

试用：https://play.ai

五、Supertone Shift：实时语音变换器

可以将你直播说话时候的声音变声其他各种角色和性别的声音。

还能调整音调、音调动态和混响等参数，塑造个性化的声音。

也可以将你声音与任何角色的声音以任意比例混合，创造出新的声音。

Supertone Shift能轻松集成到Discord、VRChat和Twitch，实现无缝连接和使用。下载测试了下，使用倒是很简单但是好像不太支持中文

官网：https://supertone.ai/

六、一个在线试衣Chrome插件原型

只需在电商网站上右键单击任何图像即可实现虚拟换装

虚拟试衣的应用

使用的API：https://replicate.com/cuuupid/idm-vton…

七、利用YOLOv8 进行道路坑洼检测

YOLOv8 可以实时快速的对物体进行检测，并准确地识别，利用其目标跟踪能力可以快速检测路面的坑洼，提高道路安全性。 YOLOv8 目标检测跟踪模型详细介绍

官网：ultralytics.com

八、多模态智能助手 SEED-X 已经将所有的模型和代码开源了

SEED-X：统一且多用途的多模态基础模型（最新开放了图像编辑模型）

相较于传统的多模态交互框架，SEED-X：1）可以理解任意大小和比例的图像2）可以理解和生成多粒度图像

这个框架关键可以用于组合各类工具，按照此框架可以在 ComfyUI 中实现多模态综合交互

Demo 实测效果很不错（视频演示）！

多粒度：意味着模型能够理解和生成从粗糙到细致不同级别的视觉信息，兼顾宏观布局和微观细节，对涉及复杂交互和细粒度视觉信息的任务非常重要。

项目：https://github.com/AILab-CVC/SEED-X…

模型：https://huggingface.co/AILab-CVC/SEED-X-17B/tree/main…

Demo：https://139a5c1d085953f17b.gradio.live

九、LocalAI 发布了 v2.14.0 版本，带来了许多新模型、重新设计的 WebUI，以及 OpenVINO 加速

LocalAI 是一个免费的 OpenAI/Elevenlabs/Claude 替代品，它允许用户在自己的 CPU 和 GPU 上运行 AI 模型。最新的 v2.14.0 版本带来了许多重大升级和新功能，包括许多新模型、更新的 AIO 镜像、Web 界面的重新设计、新模型库和 OpenVINO 加速等。新模型库中包含了许多新模型，如 Rerankers、embeddings、TTS、LLMs 等，可以直接从社区中安装。Web 界面现在支持与 LLM 聊天、生成图像和音频等功能。此外，LocalAI 还支持 Intel 硬件的 OpenVINO 加速。

项目地址：https://github.com/mudler/LocalAI/releases/tag/v2.14.0

十、Phi3-Chinese是一个公共的GitHub仓库

专注于收集和整理开源社区中关于phi3模型的各种训练变体版本。它不仅提供了不同版本的phi3模型下载链接，还包含了训练、推理、部署的相关教程，旨在帮助开发者更好地理解和使用phi3模型。

使用场景示例：

开发者可以使用phi3模型进行中文文本的理解和生成

研究人员可以基于phi3模型进行算法优化和性能提升的研究

企业可以利用phi3模型开发面向中文市场的智能客服系统

项目地址：https://github.motakasoft.com/trending/?d=2024-04-28&l=python

十一、2024 年第一季度生成式 AI 数据的报告

这份报告是基于一年时间内的 25 万条推特数据，结合数据分析师的角度和 AI 网页端数据，对 AI 赛道的发展进行了综合分析。报告的目标是帮助创业者理解 VC 视角，从而更好地理解产品方向和融资。报告的分类原则是根据 a16z 榜单进行整理，包括生产力、社交、教育和创意内容四个方面。报告还提供了 A16z 应用端文章列表和公众号，以供参考。报告的数据来源是 Similarweb，并提供了总体流量、赛道变化和其他相关数据。

报告地址：https://zw73xyquvv.feishu.cn/wiki/OzIjwaTaLijkDJkoIAccRoNbnmf

该内容为专享内容

购买AI深度研究员的简报专栏即可查看全部内容