麗臺 GDMS於企業用戶使用情境
AI專案適合的開發平台是甚麼?要如何將有限的運算資源極大化呢?
現在有不少企業單位也想導入AI系統,紛紛成立團隊投入研發,而現階段AI研發不可或缺的設備為GPU。在有限的研發預算下,要如何有效的配置硬體與人力資源的比例,才能極大化購置GPU系統的效益呢?
麗臺GPU Docker Management System (GDMS)是一款以Docker為基礎的GPU資源分配與管理的系統(GDMS影片介紹),透過直覺式圖型使用者介面,可集中管理企業的AI及大數據專案開發資源。GDMS的導入可以搭配裝載有RTX AI Software Pack軟體之 WinFast GPU伺服器與工作站一同運作,讓Docker及相關資源的設定分配變的十分簡單,大幅提升操作便利性及教學效益。另一方面,由於資源運用達到最大化,在企業研發團隊使用,都能將AI軟硬體的投資報酬率達到最大值。麗臺GDMS包含以下特色。
(一) 輕鬆管理專案資源
簡易且視覺化的選單操作方式,即便不懂docker指令,IT或系統管理員仍可輕易上手,在最短時間內協助研發團隊進行硬體資源建置、刪除、啟動或暫停等管理工作。
(二) GPU即時監控
即時監控所有納管之GPU系統,包含CPU、記憶體、GPU及GPU記憶體使用率,一目了然目前GPU系統占用及可用資源狀況。協助系統管理員更有靈活有效率的調配GPU運算資源。
(三) 多種模式場景
GDMS可分為分享模式(share mode)及獨佔模式(exclusive mode),支援多人使用一張GPU卡或一人使用多張GPU卡,靈活調整專案運算所需的硬體資源。分享模式可提供企業AI教育訓練使用,不需另外購置一人一機,加快企業內部AI人員培訓的速度;獨佔模式則針對主要研發團隊大型專案開發,提供企業不同團隊獨立GPU硬體資源,各團隊間開發環境不衝突。
(四) 支援各種開發情境
支援SSH連線或透過Jupyter Notebook等多種平台進行專案開發環境建置,並內建安裝如matplotlib等多種專案開發工具,加速企業專案啟動。另外,GDMS也能將您客製化的docker images開啟自訂連線埠。
(五) 預定排程工作
提供預訂排程工作管理,讓系統管理員不在崗位上,仍可透過預先針對GPU系統或專案進行排程設定,甚至也可以設定每日、周或月的固定系統維護的工作進行排程。
(六) 支援連接儲存系統
當機房備有企業單位已採購的儲存系統作為專案資料存取使用,GDMS支援連接您的儲存系統,資料及專案程式可依照企業內部既定管理架構,也減少資料搬運花費時間或資安問題相關疑慮。
情境一:A部門申請使用2張至少有11GB的GPU卡進行AI專案研發
系統管理員如何使用GDMS達到A部門的需求呢?
首先,系統管理員須先建立一組「獨佔模式」專案,提供A部門新增開發平台的Container使用。系統管理員在新增專案同時,可限制該專案下可新增的Container數量及GPU等級。
在完成新增專案後,即可在該專案下新增Container。由於A部門申請使用2張11 GB的GPU,目前可以看到gs1020系統下有兩張符合規格的GPU卡。
選擇GPU卡後,接著必須選擇運算時使用的AI框架。GDMS因為結合了麗臺的WinFast GPU系統,每台系統皆裝載著RTX AI Software Pack,故管理人員可以選擇已預裝好的AI框架。若有需要jupyter notebook功能,也可以勾選服務後,新增Container。
確認新增完成Container環境後,系統管理員可將Container連線資訊提供給A部門負責窗口,GDMS也支援多組Container的報表印製,讓資訊傳遞更加便利。獨佔模式的Container預設會提供一組可存取資料的路徑,也可以在Container資訊頁面查詢檢視。若企業有自行購置如NAS儲存設備,GDMS也支援將研發的程式碼及資料存放於儲存設備中。
而A部門人開發人員即可動手透過系統管理員提供的資訊開啟AI開發平台。該組Container內包含兩張11 GB的GPU,馬上就可以開始研發工作。
系統管理員可由首頁總覽(Overview)頁面,即時監控包含GDMS伺服器硬體資訊現況、GPU節點狀態、Container狀態以及GPU節點硬體資訊現況。一目了然現行整體系統和列管之GPU節點的健康及使用情況。
GDMS首頁內容GDMS伺服器狀態
GDMS首頁內容GPU節點及Container狀態
情境二:B部門需針對新進人員進行AI及平台教育訓練
單一新進員工GPU記憶體僅需要3GB,但需要提供一個6人上課的環境
系統管理員先建立一組「分享模式」專案 (多人使用一張GPU卡),提供B部門新增一教育訓練平台的Container使用。
新增一課程用專案後,即可新增教育訓練的Container。不同於獨佔模式,分享模式提供逐一設定Container的Manual選項和自動開啟Container的Automatic選項。後者在開啟多人培訓環境時相當方便,可避免逐一設定環境的時間,並且系統會自動搜尋符合條件的硬體資源,免去系統管理員至各GPU節點上搜尋可用資源的狀況。下圖為於分享模式下建立6組使用3GB GPU記憶體的Container設定方式。
接著也要選擇AI框架後再啟動Container,系統會依照排程順序搜尋可用資源並逐一開啟Container。B部門選用NVIDIA DIGITS進行影像辨識課程,讓學員可透過網頁介面學習如何建立AI模型。
每個學員透過其中一組IP及連接埠連線到各自的課程環境進行課程(如下圖),學員使用的環境不會互相干擾,並且透過GDMS分配,11GB的GPU卡將會平均分給3個學員使用,確保所有人在練習時都有足夠的硬體資源可使用。
其他功能
GPU節點群組及管理
GDMS可將納管之伺服器進行分群管理,讓系統管理員可在排程設定工作時(如開機、關機、系統重啟或docker image更新),可設定特定群組下的GPU節點進行排程之動作。被納管之GPU節點皆可檢視其GPU使用狀態,以及該GPU下目前使用的Container數量,讓資源管理更加透明。GPU節點管理頁面包含GPU節點名稱、IP、CPU及GPU使用率
AI專案管理頁面
專案管理頁面除可針對專案進行新增、編輯和移除外,也可以掌控所有專案以及該專案下有哪些Container。並且系統管理員也可以針對整個專案或個別的Container進行啟動或暫停,以避免硬體資源被長期占用。
客製化Docker Image製作
GDMS除了可使用WinFast GPU伺服器與工作站中預載的12項Docker Image (請參考WinFast RTX AI 工作站軟體使用說明),也可以使用自製的Docker Image。當AI研發人員覺得基本的AI框架上缺少部分開發軟體的時候,可自行製作Docker Image。通常客製化Docker Image製作完成後,會封裝成一個tar的檔案,而GDMS可以將此檔案上傳至GDMS列管下的所有GPU節點,完成後研發團隊也可以直接選用此Docker Image進行GDMS專案佈署。
預定排程工作
提供預訂排程工作管理,即使您不在崗位上,仍可透過預先設定針對GPU系統或專案進行排程設定,甚至也可以設定每日、每周或每月的固定工作。