观奕行研的个人中心-虎嗅网

观奕行研

财经/商业/AI/Web3

6 文章 0 视频 0 24小时 1 评论

DeepSeek算力需求暴降，为什么全球算力竞赛反而更疯狂了？
是否省力要看和谁比。与671B传统架构的大模型相比，moe无疑是节省资源的。但若和实际消耗同等显存的大模型相比，moe模型的运行效率相对会更低

sarcophile：始终没搞懂ds一次推理是不是比别的模型节省算力。我默认是大幅节省的（不然嗨什么），但架构、参数方面又没看到依据。文中又说 “更残酷的现实在于：DeepSeek-V3的混合专家架构（MoE）在推理环节，需要同时激活14个专家模块。这导致在线服务时，每个token生成需消耗0.78TFLOPs算力，较传统架构高出18%”

2025-02-21来自文章

END