蚂蚁开源分布式训练扩展库ATorch
2024-01-15 12:2255629
近日,蚂蚁集团宣布开源大模型分布式训练加速扩展库ATorch,可针对不同模型和硬件资源,实现深度学习自动资源动态优化和分布式训练稳定性提升,帮助提升深度学习的智能性。据了解,在大模型训练中,ATorch千亿模型千卡级别训练的算力利用率可达60%。目前,ATorch已集成到蚂蚁集团大模型训练开源产品DLRover中,这是蚂蚁集团基于云原生技术打造的智能分布式深度学习系统。
1
近日,蚂蚁集团宣布开源大模型分布式训练加速扩展库ATorch,可针对不同模型和硬件资源,实现深度学习自动资源动态优化和分布式训练稳定性提升,帮助提升深度学习的智能性。据了解,在大模型训练中,ATorch千亿模型千卡级别训练的算力利用率可达60%。目前,ATorch已集成到蚂蚁集团大模型训练开源产品DLRover中,这是蚂蚁集团基于云原生技术打造的智能分布式深度学习系统。