扫码打开虎嗅APP
No.56
2024-05-07
从演示视频看,可以更换视频中的人物,但是每次一些细节都不一样,比如街道的水渍、墙上的涂鸦都不一样。
据称该模型规模巨大,可能超过5000 亿个参数,远超微软之前训练的开源模型,预计使用了巨大的训练数据和算力!
MAI-1 可能基于 Inflection 的技术和数据,但与 Inflection 原有的模型 Pi 是两个不同的项目。
今年 3 月微软支付 6.5 亿美元收购了Inflection的知识产权并雇佣了其大部分员工。成立了Microsoft AI,该部门将整合微软的消费者AI工作以及Copilot、Bing、Edge等产品。
HyperGAI 团队宣布推出 HPT 1.5 Air,这是一款基于 HPT Air 架构的最佳开源 8B 多模态 LLM 模型。该模型在各种基准测试中取得了惊人的性能,甚至在某些情况下击败了拥有更多参数的更大型私有模型。HPT 1.5 Air 的总参数量为 ~8.5B,属于小型模型范畴,但其性能与更大型模型相当。该模型采用了可视化编码器、H-Former 和 LLM 的结构,与其前身 HPT 1.0 Air 相比,该模型已升级了可视化编码器,并采用了最新版本的 LLaMA 3 8B LLM,并在更大的混合图像和文本数据集上进行了训练。该模型在多个基准测试中取得了最佳结果,甚至在某些情况下击败了更大或专有的模型。HPT 1.5 Air 的源代码已在 Apache 2.0 许可下公开发布,可以在 Github 和 Huggingface 上获得。HyperGAI 还正在训练 HPT Pro 模型,该模型具有更好的 OCR 功能、多图像理解能力、支持高分辨率输入等多个功能。
https://www.hypergai.com/blog/hpt-1-5-air-best-open-sourced-8b-multimodal-llm-with-llama-3
该平台不仅能够理解用户的指令,还能根据上下文进行智能回应,为用户提供个性化的服务。Play.ai 的主要优点在于其高度的交互性和智能化,它能够适应不同用户的需求,提供定制化的对话服务。此外,Play.ai 还具有易于使用、快速响应等特点,使其成为企业和个人提升沟通效率的有力工具。
可以将你直播说话时候的声音变声其他各种角色和性别的声音。
还能调整音调、音调动态和混响等参数,塑造个性化的声音。
也可以将你声音与任何角色的声音以任意比例混合,创造出新的声音 。
Supertone Shift能轻松集成到Discord、VRChat和Twitch,实现无缝连接和使用。下载测试了下,使用倒是很简单 但是好像不太支持中文
只需在电商网站上右键单击任何图像即可实现虚拟换装
虚拟试衣的应用
使用的API:https://replicate.com/cuuupid/idm-vton…
YOLOv8 可以实时快速的对物体进行检测,并准确地识别,利用其目标跟踪能力可以快速检测路面的坑洼,提高道路安全性。 YOLOv8 目标检测跟踪模型详细介绍
SEED-X:统一且多用途的多模态基础模型(最新开放了图像编辑模型)
相较于传统的多模态交互框架,SEED-X:1)可以理解任意大小和比例的图像2)可以理解和生成多粒度图像
这个框架关键可以用于组合各类工具,按照此框架可以在 ComfyUI 中实现多模态综合交互
Demo 实测效果很不错(视频演示)!
多粒度:意味着模型能够理解和生成从粗糙到细致不同级别的视觉信息,兼顾宏观布局和微观细节,对涉及复杂交互和细粒度视觉信息的任务非常重要。
项目:https://github.com/AILab-CVC/SEED-X…
模型:https://huggingface.co/AILab-CVC/SEED-X-17B/tree/main…
Demo:https://139a5c1d085953f17b.gradio.live
LocalAI 是一个免费的 OpenAI/Elevenlabs/Claude 替代品,它允许用户在自己的 CPU 和 GPU 上运行 AI 模型。最新的 v2.14.0 版本带来了许多重大升级和新功能,包括许多新模型、更新的 AIO 镜像、Web 界面的重新设计、新模型库和 OpenVINO 加速等。新模型库中包含了许多新模型,如 Rerankers、embeddings、TTS、LLMs 等,可以直接从社区中安装。Web 界面现在支持与 LLM 聊天、生成图像和音频等功能。此外,LocalAI 还支持 Intel 硬件的 OpenVINO 加速。
项目地址:https://github.com/mudler/LocalAI/releases/tag/v2.14.0
专注于收集和整理开源社区中关于phi3模型的各种训练变体版本。它不仅提供了不同版本的phi3模型下载链接,还包含了训练、推理、部署的相关教程,旨在帮助开发者更好地理解和使用phi3模型。
使用场景示例:
开发者可以使用phi3模型进行中文文本的理解和生成
研究人员可以基于phi3模型进行算法优化和性能提升的研究
企业可以利用phi3模型开发面向中文市场的智能客服系统
项目地址:https://github.motakasoft.com/trending/?d=2024-04-28&l=python
这份报告是基于一年时间内的 25 万条推特数据,结合数据分析师的角度和 AI 网页端数据,对 AI 赛道的发展进行了综合分析。报告的目标是帮助创业者理解 VC 视角,从而更好地理解产品方向和融资。报告的分类原则是根据 a16z 榜单进行整理,包括生产力、社交、教育和创意内容四个方面。报告还提供了 A16z 应用端文章列表和公众号,以供参考。报告的数据来源是 Similarweb,并提供了总体流量、赛道变化和其他相关数据。
报告地址:https://zw73xyquvv.feishu.cn/wiki/OzIjwaTaLijkDJkoIAccRoNbnmf
该内容为专享内容
购买AI深度研究员的简报专栏即可查看全部内容