创业公司如何做强化学习-虎嗅网

由于预训练成本高昂（如DeepSeek V3需14.8万亿Token），多数初创企业更倾向于“后训练”——基于现有模型进行针对性优化。关键挑战在于高质量数据与奖励机制的设计。主要四步框架为：一是建立通用验证器，形成“数据-模型飞轮”；二是清洗标注自有数据，构建闭环；三是训练多角色模型，实现任务分工；四是资源充足时，可将多个小模型蒸馏为MOE大模型，提升泛化能力。

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

创业公司如何做强化学习

大 家 都 在 搜

大家都在搜