由于预训练成本高昂(如DeepSeek V3需14.8万亿Token),多数初创企业更倾向于“后训练”——基于现有模型进行针对性优化。关键挑战在于高质量数据与奖励机制的设计。主要四步框架为:一是建立通用验证器,形成“数据-模型飞轮”;二是清洗标注自有数据,构建闭环;三是训练多角色模型,实现任务分工;四是资源充足时,可将多个小模型蒸馏为MOE大模型,提升泛化能力。