标题: 硬核观察 #556 微软的星球级的 AI 基础设施包括数十万个 GPU [打印本页] 作者: 3AAA 时间: 2022-3-10 07:04 标题: 硬核观察 #556 微软的星球级的 AI 基础设施包括数十万个 GPU
微软的星球级的 AI 基础设施包括数十万个 GPU
微软透露,它运营着一个星球级的分布式调度服务来处理 AI 工作负载,它被称为“奇点”。它的目的是提高深度学习工作负载的高利用率来控制成本。其工作负载感知调度器可以透明地抢占和弹性地扩展深度学习工作负载,在 AI 加速器(如 GPU、FPGA)全球机群上提高利用率,而不影响其正确性或性能。在“奇点”机群中有数十万个 GPU,以及 FPGA 和其他 AI 加速器。该软件自动将工作与加速器资源解耦,这意味着当工作负载扩大或缩小时,只需改变映射的设备数量,而这对用户来说是完全透明的。