No.27

2024-04-08

AI深度研究员人工智能领域内的最新进展是什么？每日AI精选带给你

AI精选（27）-人工智能领域内的最新进展

主理人：

AI深度研究员

今日精选，深度丰富、精彩纷呈！我们诚邀大家继续关注并订阅我们内容，AI时代不落后，让每一天都充满启发和价值。

一、《纽约时报》报道，OpenAI 使用 Whisper 音频转录模型转录了超过一百万小时的 YouTube 视频来训练GPT-4

OpenAI 总裁格雷格-布罗克曼（Greg Brockman）亲自参与了收集视频的工作。

报道称OpenAI早在 2021 年就已经耗尽了所有能搜集到的有用数据。

并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的问题。

此外，OpenAI还在包括GitHub上的计算机代码、象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。

OpenAI发言人Lindsay Held通过电子邮件告诉The Verge，公司为每个模型策划了“独特”的数据集，以“帮助它们理解世界”并保持其全球研究竞争力。

Held补充说，公司使用“包括公开可用数据和非公开数据的合作伙伴关系在内的多种来源”，并且正在考虑生成自己的合成数据。

根据《纽约时报》的消息来源，Google也从YouTube收集了转录内容。

详细：https://theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

二、Lixel CyberColor：复刻真实世界

Lixel CyberColor (LCC) 是由 XGRIDS 公司开发的一款先进技术产品，可以自动生成无限大的电影级效果的3D场景，采用了Multi-SLAM和高斯溅射（Gaussian Splatting）技术。

LCC提供了一种能够精确捕捉和复现真实世界细节的技术，致力于像素级别的完美复制真实世界。

三、Twitter-web-exporter：一键导出推文、书签、列表

一个开源工具，可以直接在浏览器运行。通过这个脚本，你可以直接从X的网页版应用中导出推文、书签、关注列表等多种数据。而且无需开发者账号和使用API密钥。、支持导出为 JSON、CSV 和 HTML...

主要特性：

导出任何用户的推文、回复和点赞为JSON/CSV/HTML格式。

导出你的书签（无最大800限制！）。

导出任何用户的关注者和被关注者列表。

导出列表成员和订阅者。

导出搜索结果。

批量下载推文中的图片和视频，保留原始大小。

作为一个UserScript运行，所有操作都在浏览器中完成。

链接：https://appmiu.com/19647.html

四、ChatGPT 将提供动态模式：Dynamic

选择 "Dynamic "选项后，系统将根据智能、能力和速度的综合情况，自动选择最适合您要求的模型。

这意味着系统将根据具体情况自动调用 GPT-4 还是GPT-3.5 来回答问题。

是一个平衡策略。

但是Claude新的函数调用工具：Tool use是可以同时调用多个模型一起解决问题

目前来看ChatGPT这个"Dynamic "功能似乎是一个自动判断，不能同时进行。

Claude的Tool use可以协调调用不同的子模型（子代理）来处理特定的请求。例如你可以将Claude Opus的智能与Claude Haiku的速度和经济性结合起来，处理大规模的数据和问题。

OpenAI的介绍：https://help.openai.com/en/articles/9155758-what-is-the-chatgpt-plus-model-selector

五、AI Webcam Effects + Recorder是一款功能强大的插件，提供视频增强、美颜滤镜、虚拟背景、自定义品牌等多种功能

它适用于Google Meet、Zoom、Discord等在线会议，并且能够在各种主流视频会议平台上使用。用户可以通过这个插件实现背景虚化、更换背景图片或视频、使用专业的滤镜和颜色校正、添加动画表情和GIF等。同时，该插件还支持本地录制、优化网络连接等功能，可以为用户提供更出色的在线会议体验。

产品特色：

背景模糊

更换背景图片或视频

美颜滤镜

颜色和光线修正

动画表情和GIF

本地录制

优化网络连接

网站：https://chromewebstore.google.com/

六、Higgsfield -一家视频 AI 公司，致力于让每个人都能轻松创建社交视频

我们改变游戏规则的基础模型擅长创建具有逼真动作的个性化角色 - 只需 1 张自拍照，一切在手机上即可完成。我们让任何故事都栩栩如生

从内容库中挑选一个视频，选择您的自拍照，Diffuse 将以该视频的风格生成个性化角色。或者使用 Prompt Builder 使用文本、图像或视频从头开始创建视频。 Diffuse 提供深层次的个性化、创意控制和微调，因此任何人都可以创造他们想要的东西。

它在部分国家的 iOS App Store 上可用，我们将在未来几周内将其推广到更多国家

博客： https://higgsfield.ai/Blog/we-ve-raised-8m-in-seed-funding-to-unlock-personalized-ai-video-creation-and-creativity…

试用：higgsfield.ai/#7

七、Universal-1 是一种新模型，这是我们迄今为止最强大的语音识别模型

Universal-1 经过超过 1250 万小时的多语言音频数据训练，在英语、西班牙语、法语和德语方面实现了一流的语音到文本准确性。

而且非常好！

• 比其他流行模型准确率高 13.5%

• 产生幻觉的可能性比 Whisper 低 30%

• 处理 60 分钟的音频文件需要 38 秒

如果使用并行推理，它比 WhisperX 快 5 倍。如果您想要英语、西班牙语、法语或德语的最佳准确度，这个模型是最好的选择。顺便说一句，他们使用 JAX 实现了这个模型。

博客文章： https://assemblyai.com/research/universal-1…

网站：http://assemblyai.com/research/universal-1

八、CosmicMan,人类的文本到图像基础模型！

能够生成具有外观细致、结构合理和文本-图像精确匹配的逼真人类图像，并附带详细的密集描述

1）Annotate Anyone数据生产新范式

2）CosmicMan-HQ 1.0大规模高质量数据集

3）Daring训练框架，通过分解跨注意力层特征+重聚焦实现更好的人体结构对齐

九、一个非常流畅的Animatediff视频

由于前后都使用了图片作为引导所以不会越跑越崩。

工作流主要是使用 QRCode Controlnet 来指导动画流程，通过 IPAdapter 在参考图像之间进行形态变换。

作者给出了完整的工作流感兴趣可以试试。

工作流地址：https://civitai.com/models/372584/ipivs-morph-img2vid-animatediff-lcm

十、Open-Sora-Plan v1.0.0

它可以以 24 FPS 的速度生成 10 秒的 1024×1024 视频。它还能够生成高分辨率图像。Open-Sora Plan 显着增强了视频生成质量和文本控制功能：

1）使用 CausalVideoVAE 进行高效训练和推理，对视频进行 4×8×8 的时空压缩

2）图像-视频联合训练以获得更好的质量，

网站：https://github.com/PKU-YuanGroup/Open-Sora-Plan

十一、懒人 LoRA 制作指南，手把手教你用 OneTrainer 训练自己的 AI 绘画模型,无需深入理论,轻松掌握关键步骤。

LoRA 模型三个主要步骤:

第一步是用现有的模型生成大量高质量的图像作为训练数据;

第二步是人工检查挑选图像,剔除所有质量不合格的;

第三步是使用 OneTrainer 进行训练,调整必要的参数设置。

特别提到,在训练时如果需要将 SDXL 格式的图像转换为 SD 格式,一定要记得开启分辨率覆盖选项,否则训练会出问题。训练参数调整心得作为一名新手,作者在调整训练参数时主要参考了一份网上的指南。

指南：https://civitai.com/articles/4789/lazy-lora-making-with-onetrainer-and-ai-generation

该内容为专享内容

购买AI深度研究员的简报专栏即可查看全部内容