扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2025-07-22 22:16

Karpathy尝试统一SFT和RL

近日,前OpenAI首席科学家Andrej Karpathy提出一种融合监督微调(SFT)和强化学习(RL)的统一理论,旨在提升AI学习效率。他指出,传统监督学习依赖大量人工标注数据,成本高昂且难以扩展;而强化学习虽具扩展性,但效率较低。Karpathy认为人类学习并非逐次调整,而是通过复盘反思寻找规律,这与当前AI机制背离。他的新理论分为四步:执行收集、反思总结、应用迭代和优化提升,强调结构化知识整合,使AI更接近人类智慧。这一创新理论引发广泛讨论,被认为能有效解决AI泛化能力和资源消耗问题,为未来AI发展指明方向。
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: