[ 評測 ]  WinFast RTX AI 工作站深度學習應用效能評測
  回覆文章總數:

WinFast RTX AI 工作站深度學習應用效能評測

  By : Leadtek AI Expert     163

NVIDIA驅動的WinFast RTX AI工作站配備了一整套經過測試和最佳化的資料科學軟體,建構於NVIDIA CUDA-X AI之上,擁有超過15個函式庫,使現代計算應用程式能夠受益於NVIDIA的Quadro RTX GPU加速計算平台。這篇文章將會使用WinFast WS830工作站以及WinFast WS1030工作站搭配NVIDIA QUADRO GPU來測試深度學習的效能。

所有測試皆以TensorFlow 1.12版作為深度學習框架,測試資料使用ImageNet進行深度學習影像處理的效能測試。效能測試分成兩大部分,包含單GPU卡和多GPU卡的效益,以提供卡片數量增加時,各項常見AI模型的效能(Images/sec),數字越高表示效能越佳。另外一部分為多GPU卡時,半精度(FP16)及單精度(FP32)效能測試。其目的在於檢測RTX GPU系列的硬體Tensor Cores,於實際進行AI模型訓練時的效益。也就是說,半精度(FP16)有使用Tensor Cores進行運算,而單精度(FP32)則是使用CUDA Cores進行運算。

軟/硬體配置

工作站 WinFast WS830 WinFast WS1030
CPU Intel Xeon W-2123 *1 Intel Xeon Gold 5122 *2
記憶體 2666MHz 32GB *4 2666MHz 32GB *6/td>
OS Ubuntu 18.04 LTS Ubuntu 18.04 LTS
Driver 410.78 410.78
Docker 18.09 18.09
nvidia-docker 2.0 2.0
Framework TensorFlow 1.12 TensorFlow 1.12

軟/硬體配置

系統 測試項目 測試說明
WinFast 830 多GPU效能 測試系統搭配RTX5000與RTX6000單卡及多卡效能
不同精度效能 測試系統搭配RTX5000與RTX6000單精度及半精度效能
WinFast 1030 多GPU效能 測試系統搭配RTX6000與RTX8000單卡及多卡效能
不同精度效能 測試系統搭配RTX6000與RTX8000單精度及半精度效能

WinFast WS830評測

多GPU效能測試

WinFast WS830由於搭載900瓦電源供應器,可支援最多2張QUADRO RTX5000以上等級之GPU卡。下圖為NVLink於TensorFlow效能僅AlexNet有較明顯效能提升,其他模型可能在於官方範例程式未針對雙卡資料交換進行優化處理,並不代表其他AI模型無法使用NVLink進行高速資料交換。以AlexNet模型來說,多卡不使用NVLink到使用NVLink進行運算,約有10%-30%效能提升。針對單GPU卡及多GPU卡效能比較,各系列多GPU卡效能都較單GPU卡效能提升65%-110%,大部分模型多GPU卡效能提升約在85%以上,也就是2張GPU卡效能幾乎是單張GPU卡效能的2倍。


QUADRO RTX5000 於 WinFast WS830 深度學習效能 - 單精度(FP32)

 


QUADRO RTX5000 於 WinFast WS830 深度學習效能 - 半精度(FP16)

 


QUADRO RTX6000 於 WinFast WS830 深度學習效能 - 單精度(FP32)

 


QUADRO RTX6000 於 WinFast WS830 深度學習效能 - 半精度(FP16)

 

不同精度效能測試

此部分測試主要以2張GPU卡搭配NVLink,比較單精度(FP32)及半精度(FP16)於深度學習上效能差異。半精度使用最新Tensor Cores核心,故此段落重點在檢視使用Tensor Cores進行AI模型訓練可增加的效能。由下圖可知,VGG16、Inception V4及ResNet50等隱藏層級參數較多的模型,半精度可提升60%-95%的效能。參數量與隱藏層數較少的AlexNet及GoogLeNet提升約25%-55%之間。


QUADRO RTX5000於WinFast WS830深度學習不同精度效能比較

 


QUADRO RTX6000於WinFast WS830深度學習不同精度效能比較

 

WinFast WS1030評測

多GPU效能測試

WinFast WS1030於多GPU效能測試如下圖,NVLink於TensorFlow效能僅AlexNet有較明顯效能提升,其他模型可能在於官方範例程式未針對雙卡資料交換進行優化處理,並不代表其他AI模型無法使用NVLink進行高速資料交換。以AlexNet模型來說,多卡不使用NVLink到使用NVLink進行運算,約有10%-35%效能提升。針對單GPU卡及多GPU卡效能比較,各系列多GPU卡效能都較單GPU卡效能提升65%-120%,大部分模型多GPU卡效能提升約在85%以上,也就是2張GPU卡效能幾乎是單張GPU卡效能的2倍。


QUADRO RTX6000 於 WinFast WS1030 深度學習效能 - 半精度(FP32)

 


QUADRO RTX6000 於 WinFast WS1030 深度學習效能 - 半精度(FP16)

 


QUADRO RTX8000 於 WinFast WS1030 深度學習效能 - 單精度(FP32)

 


QUADRO RTX8000於WinFast WS1030深度學習效能-半精度(FP16)

 

不同精度效能測試

此部分測試主要以2張GPU卡搭配NVLink,比較單精度(FP32)及半精度(FP16)於深度學習上效能差異。半精度使用最新Tensor Cores核心,故此段落重點在檢視使用Tensor Cores進行AI模型訓練可增加的效能。由下圖可知,VGG16、Inception V4及ResNet50等隱藏層級參數較多的模型,半精度可提升78%-95%的效能。參數量與隱藏層數較少的AlexNet及GoogLeNet提升約25%-45%之間。


QUADRO RTX6000 於 WinFast WS1030 深度學習不同精度效能比較

 


QUADRO RTX8000 於 WinFast WS1030 深度學習不同精度效能比較

 


QUADRO RTX8000 於 WinFast WS1030 深度學習不同精度效能比較

 

以下是回覆文