网站介绍:资源浏览查阅182次。bluefog:PyTorchovergraph的分布式和去中心化训练框架,蓝雾BlueFog是一个高性能的分布式训练框架,采用分散优化算法构建。Bluefog的目标是使去中心化算法易于使用、容错、对异构环境友好,甚至比使用参数服务器或ring-allreduce构建的训练框架更快。表现下面的图表代表了在ResNet50基准上完成的BlueFog的性能。每台机器有8个V100GPU(64GB内存),启用NVLink,互连通信速度为25Gbps。这与您可以在获得的硬件设置相同。我们测试了计算密集型场景的批量大小为64和通信密集型场景的批量大小为32的扩展效率。在图中,黑框代表理想的线性缩放。据观察,Bluefog可以实现超过95%的扩展效率,而Horovod在128个GPU上以64的批量大小达到约66%的扩展效率。对于批量大小为32的通信密集型场景,Bluefog和Hor更多下载资源、学习资料请访问CSDN文库频道
- 链接地址:https://download.csdn.net/download/weixin_42160278/20706099
- 链接标题:bluefog:PyTorchovergraph的分布式和去中心化训练框架_分布式训练框架GPU服务器管理资源-CSDN文库
- 所属网站:download.csdn.net
- 被收藏次数:4055
- 网站标签:bluefog:PyTorchovergraph的分布式和去中心化训练框架