财经/商业/AI/Web3

  • DeepSeek算力需求暴降,为什么全球算力竞赛反而更疯狂了?
    是否省力要看和谁比。与671B传统架构的大模型相比,moe无疑是节省资源的。但若和实际消耗同等显存的大模型相比,moe模型的运行效率相对会更低
    sarcophile:始终没搞懂ds一次推理是不是比别的模型节省算力。我默认是大幅节省的(不然嗨什么),但架构、参数方面又没看到依据。文中又说 “更残酷的现实在于:DeepSeek-V3的混合专家架构(MoE)在推理环节,需要同时激活14个专家模块。这导致在线服务时,每个token生成需消耗0.78TFLOPs算力,较传统架构高出18%”
END