扫码打开虎嗅APP

No.23

2024-04-03

AI深度研究员 人工智能领域内的最新进展是什么?每日AI精选带给你

AI精选(23)-人工智能领域内的最新进展

主理人:
今日精选,深度丰富、精彩纷呈!我们诚邀大家继续关注并订阅我们内容,AI时代不落后,让每一天都充满启发和价值。

一、免费开源 AI 图像放大器 Upscayl

 

Upscayl 是一款免费开源的 AI 图像放大器,采用先进的 AI 算法增强低分辨率图像。 用户需要 Vulkan 兼容的 GPU 来使用该应用程序,支持 Linux、MacOS 和 Windows。 该项目得到积极维护,欢迎贡献。

评论讨论了与其他工具相比 Upscayl 的优势、AI 放大的局限性以及未来改进的潜力。

地址:https://github.com/upscayl/upscayl

 

 

二、Elmo.chat 

 

1. 模型使用的是 Mixtral 8x7b 2. Host 在@LeptonAI

上,所以速度飞快

3. HTML Parser 其实有很多现成的工具可以参考,比如 Firefox 阅读模式同款 mozilla/readability

4. PDF Parser 应该没有人能绕过 mozilla/pdfjs

5. Related Question 依赖了@LeptonAI在 mixtral 上支持的 function calling

6. 有些判断可以直接在 client 端完成,比如 chrome.i18n.detectLanguage

此外也推荐下我们之前开源项目,比如和 krea 同样功能的 https://imgpilot.com 还有和 perplexity 一样功能的

体验地址:https://search.lepton.run/

 

 

三、ACE Studio :AI人声合成引擎 制作像真人一样歌唱的AI歌手 

众多高水平的AI歌手随叫随到

从流行到民歌、童声到摇滚...数十位精通中日英三语的高水平AI歌手为您尽其所能,满足全场景音乐制作需求。

所有官方AI歌手均有清晰的商用授权条款,绝大多数AI歌手都可以免费商用!

尽情表达每一处细腻的情感

歌声不是只有歌词和音高,您还可以把控呼吸、气声、假声、张力、力度等多维度AI演唱参数,让情感时刻掌控。

任意混合,调配音色和唱法

使用丰富的声线种子去调配创造全新的声线,快速满足变化多样的声线及唱法需求。

体验网站:https://www.acestudio.ai/?ref=producthunt

 

 

四、谷歌刚刚推出了 VLOGGER,这将永远改变视频的未来

 

VLOGGER 是一项很酷的新技术,它能让照片栩栩如生。 人工智能会将你的脸变成动画,并配以自然的手势和表情

工作原理 就像一个超级强大的视频编辑器 VLOGGER 使用两个人工智能来施展魔法: - 读唇器:根据音频预测你的动作 - 动画制作器:根据你的照片和动作细节创建视频帧 以下是它的一些功能:

  1. 图像转视频 将单张照片变成令人惊叹的视频!
  2. 视频翻译 输入一种语言的视频,翻译成另一种语言的音频,它会根据新的语言调整说话者的嘴部动作!
  3. 视频编辑 这种人工智能不仅适用于基本编辑。它可以将新的面部表情和动作制作成动画,从而开辟出一个充满创意的世界。

 

 

 

五、动画自动填色技术:可自动为动画中的线条图着色

 

南洋理工大学的S-lab团队开发了一种新型的动画填色桶彩色化技术。 通过仅需对一帧进行手动彩色化,算法便能自动将颜色传播到后续的所有帧。 这一过程极大地简化了动画制作中繁琐的手动上色步骤。 即时是人物在转身阴影或者被遮挡部分也能完美解决。

项目及演示:https://ykdai.github.io/projects/InclusionMatching…

论文:https://arxiv.org/abs/2403.18342

GitHub:https://github.com/ykdai/BasicPBC

 

 

六、𝐒𝐏𝐑𝐈𝐆𝐇𝐓 :提高文本到图像模型的空间一致性!

该论文还通过重新描述 600 万张图像来介绍 SPRIGHT,这是第一个以空间为中心的大规模数据集。仅用 0.25% 的 SPRIGHT 即可将空间精度提高 22%。

SPRIGHT 的发现非常有趣:

对具有许多对象的图像进行训练显着提高了空间一致

T2I-CompBench 上的 SOTA,使用少于 500 张图像,空间得分为 0.2133

论文中更酷的见解可增强 T2I 模型的空间一致

论文: https://huggingface.co/papers/2404.01197…

带有嵌入式 Gradio 演示的项目: https://spright-t2i.github.io 

本地运行演示: https://github.com/SPRIGHT-T2I/SPRIGHT?tab=readme-ov-file#-inference

 

 

七、MuseV 已开源!

 

MuseV 于2023年7月实现,于今年3月正式开源 此项目是以扩散模型为基础的视频生成框架,支持文生视频、图生视频、视频生视频,并且还能实现无限长度生成 项目提到未来将会发布唇语同步模型 MuseTalk,可与MuseV 一起用于虚拟人生成

项目:https://github.com/TMElyralab/MuseV…

在线 Demo:https://huggingface.co/spaces/AnchorFake/MuseVDemo

 

 

八、Make-It-Vivid:给3D模型穿上衣服

 

通过文字生成3D模型,可以指定衣服。

项目地址:https://make-it-vivid.github.io

论文:https://arxiv.org/abs/2403.16897

Github(代码还没发):https://github.com/junshutang/Make-It-Vivid