扫码打开虎嗅APP
No.47
2024-04-28
这是国内首个长时长、高一致性、高动态的视频模型,单击即可制作最长16秒、1080P的视频。
它擅长模拟真实的物理世界,同时也展示了生动的想象力,具有多摄像头生成和卓越的时空一致性。
从视频来看一致性、运动幅度都达到了 Sora 水准,就是时长上还差一些,不过已经吊打现在的所有视频生成模型了。
官网:https://shengshu-ai.com/home
雅诗兰黛公司(ELC)和微软公司宣布,将合作建立一个人工智能创新实验室,这是双方全球战略关系的扩展。通过利用微软Azure OpenAI服务中的先进生成式AI能力,双方将共同开发解决方案,进一步赋能ELC旗下20多个高端美容品牌,加强与消费者的联系,提高市场反应速度,并增强本地相关性。
AI创新实验室的目标:
建立更紧密的消费者联系加快产品上市速度增强本地市场相关性
具体应用案例:
利用生成式AI提高营销效率:ELC和微软已成功创建了一个内部面向的生成式AI聊天机器人,用于提高全球营销效率。快速有效的产品创新:双方在研发中应用生成式AI工具,以更快地响应产品和成分趋势。
此举将进一步巩固双方在用AI重塑美容行业前沿的领导地位。
这个人工智能安全委员会,旨在指定AI战略,解决人工智能技术对电网和机场等关键基础设施的潜在威胁。
该董事会成员包括 OpenAI 的 Sam Altman 和微软 CEO Satya Nadella、谷歌 CEO Sundar Pichai,英伟达CEO黄仁勋,斯坦福教授AI先驱李飞飞,以及达美航空、诺斯罗普·格鲁曼公司和西方石油公司的领导人,但唯独就没有马斯克
据消息人士透露,Apple Inc. 最近重启了与 OpenAI 的谈判,讨论使用这家初创企业的技术为 iPhone 的新功能提供支持。
双方已经开始讨论可能的合作条款,以及如何将 OpenAI 的功能融入即将推出的 iPhone 操作系统 iOS 18,这些讨论是保密的,相关人士要求匿名。
这标志着两家公司对话的新起点。Apple 今年早些时候曾与 OpenAI 探讨过合作,但此后双方的实际合作较少。Apple 同时也在与 Alphabet Inc. 旗下的 Google 讨论使用其 Gemini 聊天机器人。
Apple 尚未确定最终的合作伙伴,也不能保证一定能达成协议。公司最终可能同时与 OpenAI 和 Google 达成协议,或者选择其他合作伙伴。Apple、OpenAI 和 Google 均未对此发表评论。
这场采访中,霍夫曼承认了AI克隆的危险性,同时也探索了其潜在的好处。AI版本在谈话中讨论了AI的监管问题,并使用克林贡语(Klingon)进行了对话
采访以杰瑞·塞恩菲尔德(Jerry Seinfeld)的印象模仿和克林贡语对话开始,随后进入了更多的讨论。
AI讽刺性地询问了技术取代真人工作的风险。真实的霍夫曼将其与蒸汽机的发明相比较,认为社会应该首先接受并从中学习。
最后霍夫曼提倡加大对AI的应用,认为这将提升人类的水平,他曾向《时代》杂志表示,应将“快速扩张”战略应用于AI。
DeepL,一家总部位于德国科隆的机器翻译企业,已经推出了一款专为企业设计的AI写作助手,名为“DeepL Write Pro”。这款产品在文本草拟过程中充当创意助手,提供词汇选择、措辞、风格和语调的建议,旨在改善文本质量,同时保留作者自己的声音。
改进文本:提供词汇选择、措辞、风格和语调建议,帮助改善文本,保留作者原有声音。
语言支持:目前支持英语和德语,适应不同的写作风格和语调需求。
适用于多种商务沟通形式,包括内部消息、合同等。
一款非常有趣的智能宠物机器人 Loona,能够模拟宠物的情绪化动作,可以与人和环境交互,现在还加入了 AI 功能,看视频真的超赞!
来自北京的机器人公司可以科技
Pika应用正式推出全新"风格转换"功能,让用户可以随时随地为视频营造全新的视觉体验
"风格转换"功能,你可以在视频播放时随时切换不同风格,尽情挥洒创意。Pika引以为傲的AI风格迁移算法能够保留视频原有的动态细节,让转换后的效果毫无违和感,宛如重新"渲染"般自然流畅。
官网: https://pika.art
Discord: http://discord.gg/pika
WebLlama 能够处理连续的对话,听取用户的指令,自动浏览网页,执行搜索、导航和信息检索、完成如预定酒店、购物或查找信息等任务。
它还能在实际的浏览器环境中执行各种动作,如点击、滚动、填写表单等。
WebLlama在专业的智能代理基准测试中,在多个方面都优于 GPT-4V,特别是在与真实世界的网页浏览相关的任务上。
WebLlama还可以被训练来从网页收集特定信息,并将其用于不同的应用,比如自动化的数据汇总。
型号: http://huggingface.co/McGill-NLP/Llama-3-8B-Web…
代码: http://github.com/McGill-NLP/webllama
Qwen1.5-110B是Qwen1.5系列中的新成员,也是该系列首个拥有超过1000亿参数的模型。
该模型在基础模型评估中表现出色,与Meta-Llama3-70B相媲美,并在聊天模型评估(包括MT-Bench和AlpacaEval 2.0)中表现出色。
模型支持多语言,包括英语、中文、法语、西班牙语等,上下文长度可达32K令牌。
模型特性:
架构:采用Transformer解码器架构,具有分组查询注意力(GQA)。
性能:在标准评估和聊天模型评估中均展现卓越性能。
多语言支持:支持多种语言,上下文长度可达32K令牌。
详细:https://qwenlm.github.io/blog/qwen1.5-110b/
LLaVA++在通过扩展原有的LLaVA模型,将 Phi-3 和Llama-3 进行整合集成,并赋予它们视觉处理能力。
通过改造,诞生了Phi-3-V 和 Llama-3-V,它们现在也能理解和生成与图像相关的内容。
模型能够更准确地理解和执行与视觉内容相关的复杂指令。
在处理需要理解图像和文本的学术任务时,模型展现了更高的准确率和效率。