扫码打开虎嗅APP

No.15

2024-03-14

虎视 AI AI 早报

华人创始团队Cognition发布首个AI软件工程师Devin;OpenAI的GPT-4.5 Turbo拟亮相

主理人:
虎嗅出品,每日推送AI领域资讯新闻,追踪AI的每一步进展。

技术突破 

1.【华人创始团队Cognition发布首个AI软件工程师Devin】

初创公司Cognition发布了首个AI软件工程师Devin。只需一句指令,该AI软件工程师就可以端到端地处理整个开发项目。其主要功能包含:端到端构建和部署程序;自主查找并修复bug;训练和微调其他AI模型;修复开源库等。据悉,该公司目前是一支10人团队,有10个IOI金牌。在SWE-bench基准测试中,Devin无需人类帮助,可解决13.86%的问题。SWE-bench这一数据集是由GitHub中的实际问题组成的,同样在无辅助的条件下,GPT-4的问题解决率为零,此前不加辅助的最佳水平是1.96%。

 

2.【清华大学与阿里安全联合推出概念半透膜模型,实现精准擦除】

清华大学与阿里安全联合发布了概念半透膜模型(SPM),这一模型能够在 Diffusion 架构的 AI 作图模型中精准、可控地擦除各类具象或抽象概念。概念半透膜模型通过一维 Adapter 和微调策略实现概念擦除,同时保留其他生成内容。Adapter 作为一种「半透薄膜」插入到预训练的 Diffusion Model(DM)中,学习特定概念的可迁移识别及擦除,同时保持模型完整性。通过微调策略 Latent Anchoring,模型获得对特定概念的擦除半渗透性,有效地擦除目标概念并保留其他概念。模型在推理过程中通过 Facilitated Transport 机制动态适配擦除信号,控制擦除效果,保证生成内容的准确性和完整性。

 

3.【号称全球首部完全由AI生成的长篇电影《Our T2Remake》上映】

全球首部完全由AI生成的电影《Our T2Remake》在洛杉矶举行了盛大的线下首映礼。这部电影是由50位AI领域的艺术家共同创作,翻拍自经典电影《终结者2》。在原版《终结者2》的基础上,《Our T2Remake》进行了大胆的改编,将故事情节和人物设定与当下的现实紧密相连,围绕OpenAI、ChatGPT和AGI展开。该电影的预告片在Youtube上的播放量已经突破3万。《Our T2Remake》的创作者使用了多种AIGC工具,如Midjourney、Runway、Pika、Kaiber、Eleven Labs、ComfyUi、Adobe等。制作团队坚持未使用原电影中的任何镜头、对话或音乐,以确保电影内容的完全原创。

 

4.【小米揭秘Xiaomi AISP:四大创新大模型增强计算摄影性能】

小米官方发文详细科普了Xiaomi AISP。小米表示,本次推出的14Ultra所使用的Xiaomi AISP平台是通过对效果、算力、生成的创新思考,基于Stable Diffusion模型(图像处理领域的基础AI大模型)开发。小米将 Xiaomi AISP 拆分成四类大模型,即融合光学大模型、影调大模型、色彩大模型及人像大模型,并且各个模型都经过了小型化、异构并行等加速处理,以符合手机端侧、拍照功能客观需求特点。小米首次将AIGC技术应用到计算摄影领域,带来了能精准预测看到什么”、想要呈现什么样”的影像,解决相机中长焦功能拍摄距离远,成片效果模糊不清,缺少真实性的问题。利用Stable Diffusion大模型将其生成为图片的AI 超级变焦(Ultra Zoom)功能。小米14Ultra拥有全新融合光学大模型(FusionLM)算法,打破了常规的先剪切再拼接逻辑;使用了影调大模型(ToneLM)来训练Tone mapping算法,该模型会在Ultra Raw超高动态范围线性数据上,自动学习如何调整图像的亮度和对比度,提高影调效果,比传统的Tone mapping算法能处理复杂的场景;人像大模型包括人像语义”,人像虚化”和高保真人像智能美颜”三个主要模块。

 

巨头动态 

1.【OpenAI的GPT-4.5 Turbo拟亮相,发布时间待定】

OpenAI的GPT-4.5 Turbo在 Bing和DuckDuck Go等搜索引擎已经可以索引到产品页面。但索引的链接指向一个404页面。在搜索引擎中有一些预告文字显示,称 GPT-4.5Turbo 是 OpenAI 迄今最快、最准确、最可扩展的模型,能处理高达256,000个Token,是之前GPT-4Turbo128K处理能力的两倍,大约相当于200,000个词。而加州大学欧文分校(UCI)的一则公告显示,他们正在测试GPT4.5 他们自己的聊天机器人ZotGPT,基于Azure AI,提供对GPT-4.5的无成本访问,支持聊天历史记录、文件上传和大上下文窗口。据预测,这款新模型很可能在今天正式亮相,也可能在6 月推出。

 

2.【Meta重磅推出全新24k GPU集群,加速Llama 3训练新征程】

Meta宣布推出两个 24k GPU 集群,标志着 Meta 对 AI 未来的重大投资。Meta在官网表示其正在分享有关硬件、网络、存储、设计、性能和软件的详细信息,为各种人工智能工作负载获取高吞吐量和可靠性,并使用这种集群设计进行 Llama 3 训练。Meta坚定致力于开放计算和开源,在Grand Teton、OpenRack和PyTorch之上构建了这些集群,并继续推动整个行业的开放创新。到 2024 年底,Meta的目标是继续扩大基础设施建设,其中包括 350,000 个 NVIDIA H100 GPU,作为其产品组合的一部分,其计算能力将相当于近 600,000 个 H100。Meta 的长期愿景是构建开放且负责任的通用人工智能 (AGI),以便让每个人都能广泛使用并从中受益。

 

3.  【荣耀MagicBook Pro16重磅发布:Turbo X智能调度、MagicLive人机交互】

荣耀召开AI PC技术沟通会,发布MagicBook Pro16笔记本。该产品在AI技术方面有所突破,实现了AI使能智能硬件、人机交互和跨端生态。在AI使能智能硬件方面,MagicBook Pro16采用了Turbo X智能调度和调整功能,能够智能识别不同使用场景并动态调整性能;在AI使能人机交互方面,MagicBook Pro16通过MagicLive功能打造‘即想即得’,包括智能搜索、文档总结还是AI字幕和Magic文本,都能轻松实现;在AI使能跨端生态方面,MagicBook Pro16引入了全新的MagicRing信任环技术,支持最多8路业务并发,包括网络共享、屏幕共享、键鼠共享等功能。在硬件性能上,荣耀MagicBook Pro16搭载了Intel酷睿Ultra7155H处理器和NVIDIA GeForce RTX4060显卡,配备了3072*1920分辨率的超清大屏,支持165Hz刷新率和100% DCI-P3超广色域。据官方透露,荣耀已累计投入高达100亿元的研发费用,获得了超过2000项的AI专利,致力于AI技术的创新与发展。

 

投融资信息

1.【UC伯克利教授Sergey Levine创业,获7000万美元投资】

UC伯克利的电气工程与计算机科学系副教授Sergey Levine宣布创业,获OpenAI等机构在内投资7000万美元。Pi(读π),即Physical Intelligence成立于今年,背后是一支机器人和AI专家团队,在机器人、工程和许多其他领域拥有深厚经验。他们的计划是“创建可以为各种机器人和机器增添高级智能的软件”,最终目标是创建一种作为通用机器人系统的AI。Sergey Levine本人在推特上举例说明,创业要做的事用于机器人控制,其重要程度就像NLP之于大模型。