No.23

2024-04-03

AI深度研究员人工智能领域内的最新进展是什么？每日AI精选带给你

AI精选（23）-人工智能领域内的最新进展

主理人：

AI深度研究员

今日精选，深度丰富、精彩纷呈！我们诚邀大家继续关注并订阅我们内容，AI时代不落后，让每一天都充满启发和价值。

一、免费开源 AI 图像放大器 Upscayl

Upscayl 是一款免费开源的 AI 图像放大器，采用先进的 AI 算法增强低分辨率图像。用户需要 Vulkan 兼容的 GPU 来使用该应用程序，支持 Linux、MacOS 和 Windows。该项目得到积极维护，欢迎贡献。

评论讨论了与其他工具相比 Upscayl 的优势、AI 放大的局限性以及未来改进的潜力。

地址：https://github.com/upscayl/upscayl

二、Elmo.chat

1. 模型使用的是 Mixtral 8x7b 2. Host 在@LeptonAI

上，所以速度飞快

3. HTML Parser 其实有很多现成的工具可以参考，比如 Firefox 阅读模式同款 mozilla/readability

4. PDF Parser 应该没有人能绕过 mozilla/pdfjs

5. Related Question 依赖了@LeptonAI在 mixtral 上支持的 function calling

6. 有些判断可以直接在 client 端完成，比如 chrome.i18n.detectLanguage

此外也推荐下我们之前开源项目，比如和 krea 同样功能的 https://imgpilot.com 还有和 perplexity 一样功能的

体验地址：https://search.lepton.run/

三、ACE Studio ：AI人声合成引擎制作像真人一样歌唱的AI歌手

众多高水平的AI歌手随叫随到

从流行到民歌、童声到摇滚...数十位精通中日英三语的高水平AI歌手为您尽其所能，满足全场景音乐制作需求。

所有官方AI歌手均有清晰的商用授权条款，绝大多数AI歌手都可以免费商用！

尽情表达每一处细腻的情感

歌声不是只有歌词和音高，您还可以把控呼吸、气声、假声、张力、力度等多维度AI演唱参数，让情感时刻掌控。

任意混合，调配音色和唱法

使用丰富的声线种子去调配创造全新的声线，快速满足变化多样的声线及唱法需求。

体验网站：https://www.acestudio.ai/?ref=producthunt

四、谷歌刚刚推出了 VLOGGER，这将永远改变视频的未来

VLOGGER 是一项很酷的新技术，它能让照片栩栩如生。人工智能会将你的脸变成动画，并配以自然的手势和表情

工作原理就像一个超级强大的视频编辑器 VLOGGER 使用两个人工智能来施展魔法： - 读唇器：根据音频预测你的动作 - 动画制作器：根据你的照片和动作细节创建视频帧以下是它的一些功能：

图像转视频将单张照片变成令人惊叹的视频！
视频翻译输入一种语言的视频，翻译成另一种语言的音频，它会根据新的语言调整说话者的嘴部动作！
视频编辑这种人工智能不仅适用于基本编辑。它可以将新的面部表情和动作制作成动画，从而开辟出一个充满创意的世界。

五、动画自动填色技术：可自动为动画中的线条图着色

南洋理工大学的S-lab团队开发了一种新型的动画填色桶彩色化技术。通过仅需对一帧进行手动彩色化，算法便能自动将颜色传播到后续的所有帧。这一过程极大地简化了动画制作中繁琐的手动上色步骤。即时是人物在转身阴影或者被遮挡部分也能完美解决。

项目及演示：https://ykdai.github.io/projects/InclusionMatching…

论文：https://arxiv.org/abs/2403.18342

GitHub：https://github.com/ykdai/BasicPBC

六、𝐒𝐏𝐑𝐈𝐆𝐇𝐓 ：提高文本到图像模型的空间一致性！

该论文还通过重新描述 600 万张图像来介绍 SPRIGHT，这是第一个以空间为中心的大规模数据集。仅用 0.25% 的 SPRIGHT 即可将空间精度提高 22%。

SPRIGHT 的发现非常有趣：

对具有许多对象的图像进行训练显着提高了空间一致

T2I-CompBench 上的 SOTA，使用少于 500 张图像，空间得分为 0.2133

论文中更酷的见解可增强 T2I 模型的空间一致

论文： https://huggingface.co/papers/2404.01197…

带有嵌入式 Gradio 演示的项目： https://spright-t2i.github.io

本地运行演示： https://github.com/SPRIGHT-T2I/SPRIGHT?tab=readme-ov-file#-inference

七、MuseV 已开源！

MuseV 于2023年7月实现，于今年3月正式开源此项目是以扩散模型为基础的视频生成框架，支持文生视频、图生视频、视频生视频，并且还能实现无限长度生成项目提到未来将会发布唇语同步模型 MuseTalk，可与MuseV 一起用于虚拟人生成

项目：https://github.com/TMElyralab/MuseV…

在线 Demo：https://huggingface.co/spaces/AnchorFake/MuseVDemo

八、Make-It-Vivid：给3D模型穿上衣服

通过文字生成3D模型，可以指定衣服。

项目地址：https://make-it-vivid.github.io

论文：https://arxiv.org/abs/2403.16897

Github（代码还没发）：https://github.com/junshutang/Make-It-Vivid

该内容为专享内容

购买AI深度研究员的简报专栏即可查看全部内容