扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2025-08-23 16:58

创业公司如何做强化学习

由于预训练成本高昂(如DeepSeek V3需14.8万亿Token),多数初创企业更倾向于“后训练”——基于现有模型进行针对性优化。关键挑战在于高质量数据与奖励机制的设计。主要四步框架为:一是建立通用验证器,形成“数据-模型飞轮”;二是清洗标注自有数据,构建闭环;三是训练多角色模型,实现任务分工;四是资源充足时,可将多个小模型蒸馏为MOE大模型,提升泛化能力。
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: