intro

深度学习训练耗时:

训练耗时=训练数据规模×单步计算量模型相关,相对固定/计算速率可变因素\text{训练耗时}=\underbrace{\text{训练数据规模} \times \text{单步计算量}}_{模型相关,相对固定} / \underbrace{\text{计算速率}}_{可变因素}

计算速率:

计算速率=单设备计算速率Moore定律+算法优化可变因素×设备数×多设备并行效率(加速比)\text{计算速率}= \underbrace{\text{单设备计算速率}}_{Moore定律+算法优化可变因素} \times \text{设备数} \times \text{多设备并行效率(加速比)}

​ 单设备计算速率可以用很多方法实现,例如混合精度,算子融合,梯度累加等等方法实现

设备数由服务器架构决定,还涉及通信拓扑1优化,加速比设计数据并行,模型并行,流水并行等方法