AI算力搶先
Atlas 900 AI練習集群選用業界單芯片算力最強的昇騰910 AI處理器,每顆昇騰910 AI處理器內置32個達芬奇AI Core,單芯片供給比業界高壹倍的算力。Atlas 900 AI練習集群將數千顆昇騰910 AI處理器互聯,打造業界榜首的算力集群。
昇騰910 AI處理器選用SoC規劃,集成“AI算力、通用算力、高速大帶寬I/O”,大幅度卸載Host CPU的數據預處理任務,充沛提升練習功率。
最佳集群網絡
Atlas 900 AI練習集群選用“HCCS、 PCIe 4.0、100G以太”三類高速互聯方法,百TB全互聯無堵塞專屬參數同步網絡,降低網絡時延,梯度同步時延縮短10~70%。
在AI服務器內部,昇騰910 AI處理器之間經過HCCS高速總線互聯;昇騰910 AI處理器和CPU之間以最新的PCIe 4.0(速率16Gb/s)技能互聯,其速率是業界幹流選用的PCIe 3.0(8.0Gb/s)技能的兩倍,使得數據傳輸愈加快速和高效。在集群層面,選用面向數據中心的CloudEngine 8800系列交流機,供給單端口100Gbps的交流速率,將集群內的壹切AI服務器接入高速交流網絡。
首創iLossless 智能無損交流算法,對集群內的網絡流量進行實時的學習練習,完成網絡0丟包與E2E μs級時延。
體系級調優
Atlas 900 AI練習集群經過華為調集通訊庫和作業調度渠道,整合HCCS、 PCIe 4.0和100G RoCE三種高速接口,充沛釋放昇騰910 AI處理器的強大功能。
華為調集通訊庫供給練習網絡所需的分布式並行庫,通訊庫+網絡拓撲+練習算法進行體系級調優,完成集群線性度>80%,極大提升了作業調度功率。
散熱體系
傳統數據中心多以風冷技能對設備進行散熱,但在人工智能時代傳統數據中心卻面對非常大的挑戰。高功耗器件比方CPU和AI芯片帶來更大的熱島效應要求更高效的冷卻方法。液冷技能可以滿意數據中心高功率、高密布置、低PUE的超高需求。
Atlas 900 AI練習集群選用全液冷方案,立異性規劃業界最強櫃級密閉絕熱技能,支撐>95%液冷占比。單機櫃支撐高達50kW超高散熱功耗,完成PUE<1.1的極致數據中心動力功率。
另外,在空間節約方面,與8kW風冷機櫃比較,節約機房空間79%。極致的液冷散熱技能滿意了高功率、高密設備布置、低PUE的需求,極大地降低了客戶的TCO。
據了解,華為已在華為雲上布置了壹個Atlas 900 AI練習集群,集群規模為1024顆昇騰910 AI處理器。基於當前最典型的“ResNet-50 v1.5模型”和“ImageNet-1k數據集”,Atlas 900AI練習集群只需59.8秒就可完成練習,排名全球榜首。
“ImageNet-1k數據集”包括128萬張圖片,精度為75.9%,在平等精度下,其他兩家業界幹流廠家測試成績分別是70.2s和76.8s,Atlas 900 AI練習集群比第2名快15%。
Atlas 900 AI集群主要為大型數據集神經網絡練習供給超強算力,可廣泛應用於科學研究與商業立異,讓研究人員更快地進行圖像、視頻和語音等AI模型練習,讓人類更高效地探究宇宙奧妙、預測氣候、勘探石油和加速自動駕駛的商用進程。