高效支撑万卡级规模GPU算力集群是大公司高算力的“硬功夫”。阿里云在网络技术的创新肯定集中在云端场景,近日(2022年8月29日)阿里云基础设施网络团队负责人蔡德忠团队,在国际权威网络顶会SIGCOMM(2022年)“斩获”6篇高质量论文。
SIGCOMM会议是网络领域资历最老的顶级学术会议,入选的论文包括阿里云自研的下一代高性能RDMA网络协议Solar、端网融合可预期数据中心网络架构、可编程网络稳定性保障系统等。
过去数据中心网络的协议和架构都是为传统IT工作负载设计的,当人工智能、深度学习浪潮涌来,网络性能严重影响了算力集群的大规模扩展,数据中心网络技术要变革。
专家告诉“亲爱的数据”:“目前只有顶级大厂有条件做这些网络技术方向的前沿学术论文,国内其他家技术不到位,而学术界没条件。”但也有专家向“亲爱的数据”强调:“论文毕竟比产品超前,产品落地,仍需阿里云继续努力。”