刚刚,英伟达拟10亿美元砸向这家AI编码创企,Copilot 技术大佬带队、成立两年估值近千亿

InfoQ

10月30日,据彭博社援引知情人士报道,英伟达计划向人工智能初创公司Poolside投资最高达10亿美元,这笔交易预计将使后者的估值翻四倍。


消息人士称,Poolside目前正在洽谈一轮新融资,拟以120亿美元的投前估值融资20亿美元。其中,英伟达计划出资至少5亿美元,若本轮融资顺利完成,英伟达的总投资额可能达到10亿美元。


据报道,Poolside在最新一轮融资中已获得超过10亿美元的投资承诺,其中包括来自现有投资者的约7亿美元。


Poolside是一家提供人工智能驱动编码助手的公司,其产品能够帮助开发者提升代码编写与调试效率。


截至发稿,英伟达与Poolside均未就此事回应媒体的置评请求。


那么,被英伟达看上的这家AI创企什么来头?


1微软技术大佬带队,成立两年估值近千亿


Poolside AI成立于2023年,最初总部设在美国加利福尼亚州旧金山,后总部及运营重心设于法国巴黎。公司定位是生成式AI+软件开发的交叉领域,目标打造“写代码的AI助手/编码助手”以及更长期的“通用人工智能”方向。


公司创始人Jason Warner和Eiso Kant两人均为软件工程师,Warner在Poolside中担任CEO,Kant则担任CTO。


创办Poolside之前,Warner曾任GitHub的CTO,孵化了GitHub的人工智能工具Copilot,还负责过包括GitHub Actions、Packages、Codespaces、Advanced Security等产品线,也曾在Canonical和Heroku领导工程团队。


Kant是一位连续创业者,此前联合他人创立了多家专注于开发者的初创公司,包括工程分析公司Athenian。


Warner在2017年结识了Kant。在接下来的六年里,两人共同规划了一套面向开发者的AI驱动的辅助工具套件,最终发展成为Poolside。


Warner曾在一次访谈中解释了自己离开微软创办Poolside的初心。


Warner认为当前行业低估了AI对软件开发的颠覆性影响。他坚信未来的核心在于构建专为软件开发设计的人工智能,而非依赖通用模型(如GitHub Copilot背后的GPT系列)。他认为,实现“完整的程序合成”(即AI自动生成完整程序)这一终极目标,必须通过专注于软件的专业化AI来实现,而非通用模型,这是他决定创办独立公司以专注解决此问题的关键动机。


Warner表示:“微软不再创新,而且几十年来都没有创新。微软是一家私募股权公司,持有多个不同领域的各种资产。所以,它与OpenAI的合作,收购GitHub、LinkedIn、Minecraft等等,都表明它不再是一家软件开发公司,而是一家私募股权公司。他们正在整合各个行业的资源,这些资源将他们凝聚在一起,并赋予他们如今的市场地位。而且他们在这方面做得比任何人都好。他们也敏锐地洞察到了这一趋势。在人工智能领域,他们一直遥遥领先于其他所有竞争对手。只要他们保持这种势头——而且我看不出这方面会有任何改变——他们就处于一个非常有利的市场地位。其他涉足这一领域的公司实际上都错过了这股潮流。”


Poolside开发了自己的AI模型,用于辅助完成诸如代码自动补全和针对特定上下文或代码库推荐可能相关的代码等任务——这与竞争对手的AI辅助编码工具非常相似。该公司的客户主要为全球2000强企业和公共部门机构;鲜有客户信息公开披露。


截至今年3月份,Poolside公司拥有近100名员工。


据公开信息披露,自成立起公司已经完成了三轮融资,累计筹集资金6.26亿美元,当前估值已达30亿美元。


2023年5月,Poolside完成种子轮融资,筹集金额2600万美元,由红点领投,本轮估值未公开披露,所获资金主要用于启动AI平台的开发及初始基础设施的搭建。


时隔三个月,Poolside在2023年8月成功完成1亿美元的A轮融资,此次融资由Felicis、红点创投中国及Xavier Niel联合领投,估值仍未对外公布,融资款项将用于扩大团队规模,加快产品开发进度。


进入2024年10月,Poolside完成B轮融资,筹集金额高达5亿美元,领投方为贝恩资本风险投资公司,本轮估值正式确定为30亿美元。据悉,该轮融资资金将重点投入AI驱动软件开发工具的研发,同时强化市场进入战略,并进一步加速整体研发活动的推进。


2Poolside有何特别之处能被英伟达看上?


在B轮融资完成后,公司两位创始人在官网博客上发布了一篇文章,阐述了B轮资金的用途,并称在数据和计算能力不受限制的理想环境下,AGI早已成为现实。AI通过大量练习就能变得非常聪明,但现在的AI学习效率太低,需要的数据太多。


想让它变得像人类一样擅长编程,光靠学习现有代码是不够的,必须让它亲自动手“写代码并运行”,然后根据程序是否能正确执行来获得反馈。这个过程就像程序员不断调试代码一样,是提升能力的关键。


所以, Poolside团队创建了一种强化学习方法(RLCEF) ,让AI在成千上万个真实项目上不断尝试编写代码,并立刻得到执行结果的反馈,通过这种方式来训练它。公司正全力推进这项训练,这笔B轮融资将主要投资在购买大量计算资源上。


两位创始人在博客中写道:


“我们认为,基于下一个标记预测的自监督学习为实现AGI开辟了充满希望的道路。然而,当前人工智能从数据中学习的效率远低于人类,所需数据量高出数个数量级。尽管语言理解等领域拥有大规模数据支持模型学习,但多数其他能力领域仍面临数据不足的问题,亟需新的数据收集技术。


我们相信,在数据和计算能力不受限制的理想环境下,AGI早已成为现实。正是由于这些资源的限制,我们认为软件开发将成为AI首个实现重大经济影响的领域,推动其达到并超越人类能力。


那么,要使模型在软件开发中表现卓越,必须通过确定性的反馈来增强其推理和编码能力。这一点在当今开发实践中显而易见:开发者在接受任务后不会直接输出完美代码,而是先进行思考、编写代码并执行,根据运行反馈不断迭代和优化解决方案。这种基于代码执行的反馈是提升推理与开发能力的关键。同样,用语言和代码训练的大型语言模型也需要大规模、类似的反馈机制,才能掌握同等能力。


为此,我们开发了基于代码执行反馈的强化学习方法(RLCEF)。目前,我们的模型在包含13万个真实代码库的训练池中探索数百万个任务的解决方案,并为每一个尝试的解决方案提供执行反馈。尽管规模庞大,但这仍远未达到模型在软件开发中实现人类水平能力的要求。借助新一轮融资,我们已将训练集群扩展至1万个GPU,并开始进一步扩展RLCEF及模型训练。”


其实早在前几轮融资中,英伟达就已经现身投资者之列,为Poolside提供资金支持。


那么,这样一家不足100人的AI初创公司有何特别之处能让英伟达、贝恩等科技和资本巨头看上?


这要从这家公司的技术布局说起。


3从零搭建基础设施,破解优质代码数据缺失瓶颈


在今年年初的亚马逊云科技客户大会上,Poolside欧洲、中东及非洲地区解决方案工程负责人Vitor Monteiro接受了亚马逊云科技开发者博客的采访,分享了这家迅速崛起的AI编码公司的发展历程与技术路线。Vitor表示,Poolside的终极目标,是让人工智能真正理解并能自主进行软件开发,向“通用人工智能(AGI)”在软件领域的落地迈进。


Monteiro坦言,当下AI编码助手类工具虽然层出不穷,但行业正在进入一个“瓶颈期”——两年前令人惊叹的功能,如今已无法打动开发者。开发者期待的不只是“更快写代码”,而是能拥有一个真正理解上下文、具备推理与判断力的智能助手。而这正是Poolside项目的立足点。


“我们希望构建的不只是一个聊天机器人或自动补全引擎,”Monteiro说,“而是一个能像同事一样,与开发者协作、学习并提出改进意见的AI伙伴。”


谈及Poolside的独特性,Monteiro指出,全球仅有 10至15家公司 拥有自主训练前沿大模型的算力与技术能力——如OpenAI、Google、亚马逊云科技,而Poolside也是其中之一。


不同于多数只调用外部API、专注产品界面的“AI消费者型Copilot”, Poolside从数据、算法、到训练框架都完全自研 。团队拒绝依赖现成的开源模型,而是 从零构建了完整的数据管道、训练软件和算力栈 ,确保在关键技术决策上掌握主动权。


Monteiro强调,这种底层自研路径虽成本高昂,但能带来两大优势:一是避免受制于开源组件的功能边界,二是能 针对软件开发场景深度优化模型架构与学习机制 ,而非为通用用途做折中。


在模型训练方面,Monteiro指出一个常被忽视的问题——并非算力,而是 数据质量


从GitHub、GitLab等平台采集的海量开源代码中,只有 约10% 可被用于训练;剩余90%存在重复、错误或冗余信息。


为此,Poolside的联合创始人兼CTO自2016年起便致力于“代码智能”的研究,团队自主研发了基于代码执行反馈的强化学习系统,通过“合成数据生成”来突破高质量数据不足的瓶颈。


这一系统会自动扫描互联网上的高质量代码库,筛选并验证改动的正确性,提取出真实、可靠的提交记录。随后,系统将提交描述(自然语言)作为提示词,令模型生成多达50个代码方案,并通过单元测试、安全审查等层层筛选,仅保留通过所有测试的样本用于训练。这些样本再通过正负强化机制不断优化模型决策,使系统能从反馈中“学会写出正确代码”。


目前, Poolside已自动处理超20万个代码仓库 ,整个流程完全自动化,可持续扩展至更多领域。据Monteiro透露,全球可用的高质量代码数据约为3万亿个token,而训练顶级代码模型至少需1.5万亿个合成数据token。Poolside正在用自研技术逐步逼近这一量级。


4 模型迭代体系:用实验筛出“最优大脑”


在模型研发流程上,Poolside并非采用单一路线,而是建立了 高度实验化的并行训练体系 。团队通过大量小规模实验探索不同架构、损失函数与优化策略,筛选出最具潜力的方向后再扩大训练规模。


Monteiro表示,这种方法能显著降低失败成本,也使团队在模型探索上保持敏捷。预计 Poolside的首个核心模型将于2025年发布 ,基于强化学习与合成数据的预训练,旨在弥合现有代码助手在推理深度与任务复杂度上的差距。


这款核心模型发布之前,Poolside已经通过亚马逊云科技Bedrock服务提供其基础模型和生成式AI助手Maidu。


在产品落地层面,Poolside选择了一条与主流SaaS不同的路径。客户可将模型 直接部署在自己的云端(如亚马逊云科技VPC) ,数据完全不离开企业内部网络。这种方式在金融、政府及大型企业用户中尤受欢迎,既可确保数据隐私,又可实现本地化优化。


功能层面,Poolside提供聊天式交互、智能补全、代码解释、自动文档生成等能力,支持Visual Studio、VS Code等主流开发环境,也提供开放API以便客户集成或扩展。对于大型企业的遗留系统,Poolside可在客户私有代码库中执行微调,并结合类似RAG(检索增强生成)的机制,自动识别项目依赖关系,在上下文中给出精准建议。


此外,针对涉密部门,系统支持多模型分区部署与基于角色的访问控制,以防止跨部门数据泄露。


在被问及如何衡量AI工具带来的生产力时,Monteiro坦言,“生产力不是一个单一数字”。


Poolside通过定量与定性结合的方法,追踪模型的使用频率、功能调用率、开发者反馈与建议采纳率等指标,以此判断工具是否真正“融入开发者日常工作”。


目前,团队仍在持续优化模型的复杂任务处理能力,例如代码迁移与架构重构等多阶段任务——这些场景中, 任何一个子任务失败都可能导致整体错误 ,是目前业界尚未攻克的挑战。


采访最后,Monteiro表示,Poolside希望成为推动软件开发范式转变的力量。“未来的开发者,不再是写代码的人,而是与AI共同构建软件系统的人。”


从底层模型到部署架构,从合成数据到强化学习,Poolside试图在拥挤的AI编码赛道中,用技术的“纯粹与自建”走出一条不同的路。在通往AGI的征途中,它正在让人工智能真正具备“理解软件”的能力,而不仅仅是“生成代码”。


参考链接:


https://www.youtube.com/watch?v=wMQoDRTWwUg&t=9s


https://www.focal.vc/transcripts/5yf-episode-20-poolside-ceo-jason-warner


https://www.youtube.com/watch?v=0TCMv2oiw-E


https://techcrunch.com/2024/10/02/ai-coding-startup-poolside-raises-500m-from-ebay-nvidia-and-others/


https://poolside.ai/blog/announcing-our-500-million-fundraise-to-make-progress-towards-agi

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。