扫码打开虎嗅APP

No.27

2024-04-08

AI深度研究员 人工智能领域内的最新进展是什么?每日AI精选带给你

AI精选(27)-人工智能领域内的最新进展

主理人:
今日精选,深度丰富、精彩纷呈!我们诚邀大家继续关注并订阅我们内容,AI时代不落后,让每一天都充满启发和价值。

一、《纽约时报》报道,OpenAI 使用 Whisper 音频转录模型转录了超过一百万小时的 YouTube 视频来训练GPT-4

 

OpenAI 总裁格雷格-布罗克曼(Greg Brockman)亲自参与了收集视频的工作。

报道称OpenAI早在 2021 年就已经耗尽了所有能搜集到的有用数据。

并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的问题。

此外,OpenAI还在包括GitHub上的计算机代码、象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。

OpenAI发言人Lindsay Held通过电子邮件告诉The Verge,公司为每个模型策划了“独特”的数据集,以“帮助它们理解世界”并保持其全球研究竞争力。

Held补充说,公司使用“包括公开可用数据和非公开数据的合作伙伴关系在内的多种来源”,并且正在考虑生成自己的合成数据。

根据《纽约时报》的消息来源,Google也从YouTube收集了转录内容。

详细:https://theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

 

 

二、Lixel CyberColor:复刻真实世界 

 

Lixel CyberColor (LCC) 是由 XGRIDS 公司开发的一款先进技术产品,可以自动生成无限大的电影级效果的3D场景,采用了Multi-SLAM和高斯溅射(Gaussian Splatting)技术。

LCC提供了一种能够精确捕捉和复现真实世界细节的技术,致力于像素级别的完美复制真实世界。 

注册:https://xgrids.com/lcc

 

 

三、Twitter-web-exporter:一键导出推文、书签、列表

 

一个开源工具,可以直接在浏览器运行。 通过这个脚本,你可以直接从X的网页版应用中导出推文、书签、关注列表等多种数据。 而且无需开发者账号和使用API密钥。、 支持导出为 JSON、CSV 和 HTML...

主要特性:

导出任何用户的推文、回复和点赞为JSON/CSV/HTML格式。

导出你的书签(无最大800限制!)。

导出任何用户的关注者和被关注者列表。

导出列表成员和订阅者。

导出搜索结果。

批量下载推文中的图片和视频,保留原始大小。

作为一个UserScript运行,所有操作都在浏览器中完成。

链接:https://appmiu.com/19647.html

 

 

四、ChatGPT 将提供动态模式:Dynamic

 

选择 "Dynamic "选项后,系统将根据智能、能力和速度的综合情况,自动选择最适合您要求的模型。

这意味着系统将根据具体情况自动调用 GPT-4 还是GPT-3.5 来回答问题。

是一个平衡策略。

但是Claude新的函数调用工具:Tool use是可以同时调用多个模型一起解决问题

目前来看ChatGPT这个"Dynamic "功能似乎是一个自动判断,不能同时进行。

Claude的Tool use可以协调调用不同的子模型(子代理)来处理特定的请求。例如你可以将Claude Opus的智能与Claude Haiku的速度和经济性结合起来,处理大规模的数据和问题。

OpenAI的介绍:https://help.openai.com/en/articles/9155758-what-is-the-chatgpt-plus-model-selector

 

 

五、AI Webcam Effects + Recorder是一款功能强大的插件,提供视频增强、美颜滤镜、虚拟背景、自定义品牌等多种功能

它适用于Google Meet、Zoom、Discord等在线会议,并且能够在各种主流视频会议平台上使用。用户可以通过这个插件实现背景虚化、更换背景图片或视频、使用专业的滤镜和颜色校正、添加动画表情和GIF等。同时,该插件还支持本地录制、优化网络连接等功能,可以为用户提供更出色的在线会议体验。

 

产品特色:

背景模糊

更换背景图片或视频

美颜滤镜

颜色和光线修正

动画表情和GIF

本地录制

优化网络连接

网站:https://chromewebstore.google.com/

 

 

六、Higgsfield -一家视频 AI 公司,致力于让每个人都能轻松创建社交视频

 

我们改变游戏规则的基础模型擅长创建具有逼真动作的个性化角色 - 只需 1 张自拍照,一切在手机上即可完成。 我们让任何故事都栩栩如生

 

从内容库中挑选一个视频,选择您的自拍照,Diffuse 将以该视频的风格生成个性化角色。 或者使用 Prompt Builder 使用文本、图像或视频从头开始创建视频。 Diffuse 提供深层次的个性化、创意控制和微调,因此任何人都可以创造他们想要的东西。 

它在部分国家的 iOS App Store 上可用,我们将在未来几周内将其推广到更多国家

博客: https://higgsfield.ai/Blog/we-ve-raised-8m-in-seed-funding-to-unlock-personalized-ai-video-creation-and-creativity…

试用:higgsfield.ai/#7

 

七、Universal-1 是一种新模型,这是我们迄今为止最强大的语音识别模型

 

Universal-1 经过超过 1250 万小时的多语言音频数据训练,在英语、西班牙语、法语和德语方面实现了一流的语音到文本准确性。

而且非常好!

• 比其他流行模型准确率高 13.5%

• 产生幻觉的可能性比 Whisper 低 30%

• 处理 60 分钟的音频文件需要 38 秒

如果使用并行推理,它比 WhisperX 快 5 倍。 如果您想要英语、西班牙语、法语或德语的最佳准确度,这个模型是最好的选择。 顺便说一句,他们使用 JAX 实现了这个模型。

博客文章: https://assemblyai.com/research/universal-1…

网站:http://assemblyai.com/research/universal-1

 

 

八、CosmicMan,人类的文本到图像基础模型 !

 

能够生成具有外观细致、结构合理和文本-图像精确匹配的逼真人类图像,并附带详细的密集描述

1)Annotate Anyone数据生产新范式

2)CosmicMan-HQ 1.0大规模高质量数据集

3)Daring训练框架,通过分解跨注意力层特征+重聚焦实现更好的人体结构对齐

 

 

九、一个非常流畅的Animatediff视频

 

由于前后都使用了图片作为引导所以不会越跑越崩。

工作流主要是使用 QRCode Controlnet 来指导动画流程,通过 IPAdapter 在参考图像之间进行形态变换。 

作者给出了完整的工作流感兴趣可以试试。

工作流地址:https://civitai.com/models/372584/ipivs-morph-img2vid-animatediff-lcm

 

 

十、Open-Sora-Plan v1.0.0

 

它可以以 24 FPS 的速度生成 10 秒的 1024×1024 视频。它还能够生成高分辨率图像。Open-Sora Plan  显着增强了视频生成质量和文本控制功能:

 1)使用 CausalVideoVAE 进行高效训练和推理,对视频进行 4×8×8 的时空压缩

2)图像-视频联合训练以获得更好的质量,

 

网站:https://github.com/PKU-YuanGroup/Open-Sora-Plan

 

 

十一、懒人 LoRA 制作指南,手把手教你用 OneTrainer 训练自己的 AI 绘画模型,无需深入理论,轻松掌握关键步骤。

 

LoRA 模型三个主要步骤: 

第一步是用现有的模型生成大量高质量的图像作为训练数据;

第二步是人工检查挑选图像,剔除所有质量不合格的;

第三步是使用 OneTrainer 进行训练,调整必要的参数设置。

特别提到,在训练时如果需要将 SDXL 格式的图像转换为 SD 格式,一定要记得开启分辨率覆盖选项,否则训练会出问题。 训练参数调整心得 作为一名新手,作者在调整训练参数时主要参考了一份网上的指南。

指南:https://civitai.com/articles/4789/lazy-lora-making-with-onetrainer-and-ai-generation