扫码打开虎嗅APP

No.56

2024-05-07

AI深度研究员 人工智能领域内的最新进展是什么?每日AI精选带给你

AI精选(56)-人工智能领域内的最新进展

主理人:
今日精选,深度丰富、精彩纷呈!我们诚邀大家继续关注并订阅我们内容,AI时代不落后,让每一天都充满启发和价值

一、OpenAI的Sora 正在研发一种技术,可以在视频中只更改一个元素(目前仍在研究阶段,未对外公开)

 

从演示视频看,可以更换视频中的人物,但是每次一些细节都不一样,比如街道的水渍、墙上的涂鸦都不一样。

 

 

 

二、消息称微软将推出自己的全新 AI 大模型「MAI-1」与谷歌、OpenAI 竞争该模型,由之前加入微软的 Inflection 的 CEO Mustafa Suleyman 负责

 

 

据称该模型规模巨大,可能超过5000 亿个参数,远超微软之前训练的开源模型,预计使用了巨大的训练数据和算力!

MAI-1 可能基于 Inflection 的技术和数据,但与 Inflection 原有的模型 Pi 是两个不同的项目。

今年 3 月微软支付 6.5 亿美元收购了Inflection的知识产权并雇佣了其大部分员工。成立了Microsoft AI,该部门将整合微软的消费者AI工作以及Copilot、Bing、Edge等产品。

来源:https://t.co/aba77GFcnD

 

 

三、HyperGAI 团队推出的 HPT 1.5 Air

 

HyperGAI 团队宣布推出 HPT 1.5 Air,这是一款基于 HPT Air 架构的最佳开源 8B 多模态 LLM 模型。该模型在各种基准测试中取得了惊人的性能,甚至在某些情况下击败了拥有更多参数的更大型私有模型。HPT 1.5 Air 的总参数量为 ~8.5B,属于小型模型范畴,但其性能与更大型模型相当。该模型采用了可视化编码器、H-Former 和 LLM 的结构,与其前身 HPT 1.0 Air 相比,该模型已升级了可视化编码器,并采用了最新版本的 LLaMA 3 8B LLM,并在更大的混合图像和文本数据集上进行了训练。该模型在多个基准测试中取得了最佳结果,甚至在某些情况下击败了更大或专有的模型。HPT 1.5 Air 的源代码已在 Apache 2.0 许可下公开发布,可以在 Github 和 Huggingface 上获得。HyperGAI 还正在训练 HPT Pro 模型,该模型具有更好的 OCR 功能、多图像理解能力、支持高分辨率输入等多个功能。

https://www.hypergai.com/blog/hpt-1-5-air-best-open-sourced-8b-multimodal-llm-with-llama-3

 

 

 

四、Play.ai 是一个先进的语音交互平台,它利用人工智能技术为用户提供流畅、自然的对话体验

 

该平台不仅能够理解用户的指令,还能根据上下文进行智能回应,为用户提供个性化的服务。Play.ai 的主要优点在于其高度的交互性和智能化,它能够适应不同用户的需求,提供定制化的对话服务。此外,Play.ai 还具有易于使用、快速响应等特点,使其成为企业和个人提升沟通效率的有力工具。

试用:https://play.ai

 

 

 

 

五、Supertone Shift:实时语音变换器

 

可以将你直播说话时候的声音变声其他各种角色和性别的声音。

还能调整音调、音调动态和混响等参数,塑造个性化的声音。

也可以将你声音与任何角色的声音以任意比例混合,创造出新的声音 。

Supertone Shift能轻松集成到Discord、VRChat和Twitch,实现无缝连接和使用。下载测试了下,使用倒是很简单 但是好像不太支持中文

官网:https://supertone.ai/

 

 

 

六、一个在线试衣Chrome插件原型

 

只需在电商网站上右键单击任何图像即可实现虚拟换装

虚拟试衣的应用

使用的API:https://replicate.com/cuuupid/idm-vton…

 

 

七、利用YOLOv8 进行道路坑洼检测

 

YOLOv8 可以实时快速的对物体进行检测,并准确地识别,利用其目标跟踪能力可以快速检测路面的坑洼,提高道路安全性。 YOLOv8 目标检测跟踪模型详细介绍

官网:ultralytics.com

 

 

 

八、多模态智能助手 SEED-X 已经将所有的模型和代码开源了

 

SEED-X:统一且多用途的多模态基础模型(最新开放了图像编辑模型)

相较于传统的多模态交互框架,SEED-X:1)可以理解任意大小和比例的图像2)可以理解和生成多粒度图像

这个框架关键可以用于组合各类工具,按照此框架可以在 ComfyUI 中实现多模态综合交互

Demo 实测效果很不错(视频演示)!

多粒度:意味着模型能够理解和生成从粗糙到细致不同级别的视觉信息,兼顾宏观布局和微观细节,对涉及复杂交互和细粒度视觉信息的任务非常重要。

项目:https://github.com/AILab-CVC/SEED-X…

模型:https://huggingface.co/AILab-CVC/SEED-X-17B/tree/main…

Demo:https://139a5c1d085953f17b.gradio.live

 

 

 

九、LocalAI 发布了 v2.14.0 版本,带来了许多新模型、重新设计的 WebUI,以及 OpenVINO 加速

 

LocalAI 是一个免费的 OpenAI/Elevenlabs/Claude 替代品,它允许用户在自己的 CPU 和 GPU 上运行 AI 模型。最新的 v2.14.0 版本带来了许多重大升级和新功能,包括许多新模型、更新的 AIO 镜像、Web 界面的重新设计、新模型库和 OpenVINO 加速等。新模型库中包含了许多新模型,如 Rerankers、embeddings、TTS、LLMs 等,可以直接从社区中安装。Web 界面现在支持与 LLM 聊天、生成图像和音频等功能。此外,LocalAI 还支持 Intel 硬件的 OpenVINO 加速。

项目地址:https://github.com/mudler/LocalAI/releases/tag/v2.14.0

 

 

 

十、Phi3-Chinese是一个公共的GitHub仓库

 

专注于收集和整理开源社区中关于phi3模型的各种训练变体版本。它不仅提供了不同版本的phi3模型下载链接,还包含了训练、推理、部署的相关教程,旨在帮助开发者更好地理解和使用phi3模型。

使用场景示例:

开发者可以使用phi3模型进行中文文本的理解和生成

研究人员可以基于phi3模型进行算法优化和性能提升的研究

企业可以利用phi3模型开发面向中文市场的智能客服系统

项目地址:https://github.motakasoft.com/trending/?d=2024-04-28&l=python

 

 

 

十一、2024 年第一季度生成式 AI 数据的报告

这份报告是基于一年时间内的 25 万条推特数据,结合数据分析师的角度和 AI 网页端数据,对 AI 赛道的发展进行了综合分析。报告的目标是帮助创业者理解 VC 视角,从而更好地理解产品方向和融资。报告的分类原则是根据 a16z 榜单进行整理,包括生产力、社交、教育和创意内容四个方面。报告还提供了 A16z 应用端文章列表和公众号,以供参考。报告的数据来源是 Similarweb,并提供了总体流量、赛道变化和其他相关数据。

报告地址:https://zw73xyquvv.feishu.cn/wiki/OzIjwaTaLijkDJkoIAccRoNbnmf