扫码打开虎嗅APP
No.27
2024-04-08
OpenAI 总裁格雷格-布罗克曼(Greg Brockman)亲自参与了收集视频的工作。
报道称OpenAI早在 2021 年就已经耗尽了所有能搜集到的有用数据。
并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的问题。
此外,OpenAI还在包括GitHub上的计算机代码、象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。
OpenAI发言人Lindsay Held通过电子邮件告诉The Verge,公司为每个模型策划了“独特”的数据集,以“帮助它们理解世界”并保持其全球研究竞争力。
Held补充说,公司使用“包括公开可用数据和非公开数据的合作伙伴关系在内的多种来源”,并且正在考虑生成自己的合成数据。
根据《纽约时报》的消息来源,Google也从YouTube收集了转录内容。
详细:https://theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google
Lixel CyberColor (LCC) 是由 XGRIDS 公司开发的一款先进技术产品,可以自动生成无限大的电影级效果的3D场景,采用了Multi-SLAM和高斯溅射(Gaussian Splatting)技术。
LCC提供了一种能够精确捕捉和复现真实世界细节的技术,致力于像素级别的完美复制真实世界。
一个开源工具,可以直接在浏览器运行。 通过这个脚本,你可以直接从X的网页版应用中导出推文、书签、关注列表等多种数据。 而且无需开发者账号和使用API密钥。、 支持导出为 JSON、CSV 和 HTML...
主要特性:
导出任何用户的推文、回复和点赞为JSON/CSV/HTML格式。
导出你的书签(无最大800限制!)。
导出任何用户的关注者和被关注者列表。
导出列表成员和订阅者。
导出搜索结果。
批量下载推文中的图片和视频,保留原始大小。
作为一个UserScript运行,所有操作都在浏览器中完成。
链接:https://appmiu.com/19647.html
选择 "Dynamic "选项后,系统将根据智能、能力和速度的综合情况,自动选择最适合您要求的模型。
这意味着系统将根据具体情况自动调用 GPT-4 还是GPT-3.5 来回答问题。
是一个平衡策略。
但是Claude新的函数调用工具:Tool use是可以同时调用多个模型一起解决问题
目前来看ChatGPT这个"Dynamic "功能似乎是一个自动判断,不能同时进行。
Claude的Tool use可以协调调用不同的子模型(子代理)来处理特定的请求。例如你可以将Claude Opus的智能与Claude Haiku的速度和经济性结合起来,处理大规模的数据和问题。
OpenAI的介绍:https://help.openai.com/en/articles/9155758-what-is-the-chatgpt-plus-model-selector
产品特色:
背景模糊
更换背景图片或视频
美颜滤镜
颜色和光线修正
动画表情和GIF
本地录制
优化网络连接
网站:https://chromewebstore.google.com/
我们改变游戏规则的基础模型擅长创建具有逼真动作的个性化角色 - 只需 1 张自拍照,一切在手机上即可完成。 我们让任何故事都栩栩如生
从内容库中挑选一个视频,选择您的自拍照,Diffuse 将以该视频的风格生成个性化角色。 或者使用 Prompt Builder 使用文本、图像或视频从头开始创建视频。 Diffuse 提供深层次的个性化、创意控制和微调,因此任何人都可以创造他们想要的东西。
它在部分国家的 iOS App Store 上可用,我们将在未来几周内将其推广到更多国家
Universal-1 经过超过 1250 万小时的多语言音频数据训练,在英语、西班牙语、法语和德语方面实现了一流的语音到文本准确性。
而且非常好!
• 比其他流行模型准确率高 13.5%
• 产生幻觉的可能性比 Whisper 低 30%
• 处理 60 分钟的音频文件需要 38 秒
如果使用并行推理,它比 WhisperX 快 5 倍。 如果您想要英语、西班牙语、法语或德语的最佳准确度,这个模型是最好的选择。 顺便说一句,他们使用 JAX 实现了这个模型。
博客文章: https://assemblyai.com/research/universal-1…
网站:http://assemblyai.com/research/universal-1
能够生成具有外观细致、结构合理和文本-图像精确匹配的逼真人类图像,并附带详细的密集描述
1)Annotate Anyone数据生产新范式
2)CosmicMan-HQ 1.0大规模高质量数据集
3)Daring训练框架,通过分解跨注意力层特征+重聚焦实现更好的人体结构对齐
由于前后都使用了图片作为引导所以不会越跑越崩。
工作流主要是使用 QRCode Controlnet 来指导动画流程,通过 IPAdapter 在参考图像之间进行形态变换。
作者给出了完整的工作流感兴趣可以试试。
工作流地址:https://civitai.com/models/372584/ipivs-morph-img2vid-animatediff-lcm
它可以以 24 FPS 的速度生成 10 秒的 1024×1024 视频。它还能够生成高分辨率图像。Open-Sora Plan 显着增强了视频生成质量和文本控制功能:
1)使用 CausalVideoVAE 进行高效训练和推理,对视频进行 4×8×8 的时空压缩
2)图像-视频联合训练以获得更好的质量,
网站:https://github.com/PKU-YuanGroup/Open-Sora-Plan
LoRA 模型三个主要步骤:
第一步是用现有的模型生成大量高质量的图像作为训练数据;
第二步是人工检查挑选图像,剔除所有质量不合格的;
第三步是使用 OneTrainer 进行训练,调整必要的参数设置。
特别提到,在训练时如果需要将 SDXL 格式的图像转换为 SD 格式,一定要记得开启分辨率覆盖选项,否则训练会出问题。 训练参数调整心得 作为一名新手,作者在调整训练参数时主要参考了一份网上的指南。
指南:https://civitai.com/articles/4789/lazy-lora-making-with-onetrainer-and-ai-generation
该内容为专享内容
购买AI深度研究员的简报专栏即可查看全部内容