HPE 攜手NVIDIA 提供加速AI 訓練之全新整合方案- SOGI 手機王

發表主題

正平公關

發文數：541
發表時間：2023-11-22 15:20:03

Hewlett Packard Enterprise （NYSE: HPE）宣佈推出專為大型企業、研究機構和政府機構所設計之生成式AI的超級運算解決方案，透過使用私有資料集加速AI模型的訓練和調校。此解決方案包括一個軟體套件，讓客戶能夠訓練和調校模型，以及開發AI應用程式。此外還包括液冷式超級電腦、加速運算、網路、儲存和服務，協助企業加速實現AI價值。

「為推動創新並於研究中取得重大突破，全球領先的公司和研究機構都在訓練與調校AI模型。然而，要有效率地實現這一目標，他們需要專為此打造的一套解決方案，」HPE執行副總裁暨HPC、AI和實驗室部門總經理Justin Hotard表示。「為支援生成式AI，組織需要使用能提供超級電腦專用效能與規模的永續性解決方案，以支援AI模型訓練。我們很高興能擴大與NVIDIA的合作，提供一AI原生整合方案，協助加速AI模型訓練並取得成果。」

此生成式AI的超級運算解決方案關鍵元件為用於建立AI應用程式、客製化預建模型以及開發和修改程式碼的軟體工具。該軟體更與採用世上最快超級電腦強大架構的HPE Cray超級運算技術進行整合，並搭載NVIDIA Grace Hopper GH200 超級晶片支援。此解決方案提供前所未有的規模與效能以滿足大型AI工作負載的需求，例如大型語言模型（LLM）訓練以及深度學習推薦模型（DLRM）訓練。在此系統上使用HPE機器學習開發環境（HPE Machine Learning Development Environment），僅需少於3分鐘內即能對開源700億參數LIama 2模型進行微調¹，為客戶加速價值創造時間。藉由NVIDIA技術支援，此先進的超級運算能力可將系統效能提升2至3倍²。

「生成式AI正在改變科學發展和每個產業，」NVIDIA超大規模與高效能運算部門副總裁Ian Buck 表示。「HPE攜手NVIDIA推出搭載NVIDIA GH200 Grace Hopper超級晶片的AI訓練和模擬整合解決方案，為客戶實現生成式AI專案所需效能。」

功能強大的AI整合解決方案

此整合式超級運算解決方案是針對AI專門打造，並內建AI 相關功能，提供以下端對端技術及服務：

AI/ML加速軟體：由三個軟體工具組成的套件，將協助客戶訓練和調校AI模型，並創建自己的AI應用。
- HPE機器學習開發環境（HPE Machine Learning Development Environment）：機器學習軟體平台，整合常用的ML架構並簡化資料準備，協助客戶加速開發及部署AI模型。
- NVIDIA AI Enterprise：透過安全性、穩定性、易管理性及支援，協助組織加速邁向領先的AI。其提供廣泛的框架、預訓練模型及簡化AI生產的開發與部署流程。
- HPE Cray程式設計環境（HPE Cray Programming Environment）：此軟體套件專為程式設計師提供開發、移植、除錯和調校程式碼所需的完整工具。
擴充性設計：基於HPE Cray EX2500百萬兆級系統，搭載領先業界的NVIDIA GH200 Grace Hopper超級晶片。此解決方案可以擴充至數千個GPU，且所有節點都支援單一AI工作負載，以加速價值創造。
適用於即時AI的網路：HPE Slingshot Interconnect提供一個開放式且基於乙太網路的高效能網路，專為支援百萬兆級的工作負載所設計。此可調整的互連技術採用的是HPE Cray技術，透過超高速的網路連線，大幅提升整個系統的效能。
一應俱全的簡易性：此解決方案配有HPE Complete Care Services，由全球專家提供設定及安裝，並支援整個生命週期，以簡化AI應用。

超級運算與AI的未來將更加永續

AI工作負載大幅增長，到2028年預計將消耗資料中心20千瓦的電力³。客戶需採用可提高能源效率的解決方案，以將碳足跡的影響降至最低。

能源效率是HPE運算計畫的核心，相較於採用氣冷的解決方案，該計劃提供具有液冷功能的解決方案能將每千瓦效能提高20%，並將耗電量降低15% ⁴。

如今，HPE提供的全球前十大最高效超級電腦中，大部分都採用直接液冷（direct liquid cooling, DLC）技術。此技術亦應用於生成式AI的超級運算解決方案中，不僅能有效地冷卻系統，同時降低運算密集型應用程式的能耗。

HPE在此領域的獨特優勢，協助組織運用最強大的運算技術推動其AI目標發展並降低能源使用。

供貨狀況

HPE將於12月於逾30個國家推出此生成式AI超級運算解決方案。

參考資料

資料來源

1 使用32個HPE Cray EX 2500節點並搭載128個NVIDIA H100 GPU，以97%的擴展效能成功在3分鐘以內對一個包含1,000萬標記的語料庫進行70億參數的Llama 2模型微調。在擴展運行間，模型微調代碼和訓練參數並未最佳化。

2 標準 AI 基準測試，BERT 和 Mask R-CNN，使用開箱即用、未經調整的系統，包含HPE Cray EX2500 超級電腦，其配備新的HPE Cray超級運算EX254n刀鋒，並搭載四個NVIDIA GH200 Grace Hopper超級晶片。獨立運行的測試顯示，與 MLPerf 3.0 發佈之結果相比，基於 A100 的系統，包含兩個 AMD EPYC 7763 處理器和四個具有 NVLINK 互通性的 NVIDIA A100 GPU之效能提高 2至3 倍。

3 施耐德電機，《AI顛覆：資料中心設計的挑戰與指引》（白皮書110）, Avelar, Victor; Donovan, Patrick; Lin Paul; Torell, Wendy; and Torres Arango, Maria A.,：https://download.schneider-electric.com/files?p_Doc_Ref=SPD_WP110_EN&p_enDocType=White+Paper&p_File_Name=WP110_V1.1_EN.pdf

4 根據HPE於2023年4月的內部效能測試，針對氣冷式與直接液體冷卻的HPE Cray XD2000進行比較。使用 SPEChpc™2021、小型、MPI + OpenMP、64 個等級、每台伺服器 14 個執行緒的基準估算結果，氣冷系統為每千瓦 6.61效能，直接液體冷卻系統為每千瓦7.98效能，相差 20.7%。在同一基準測試中，氣冷系統的底盤功率為 4539 瓦，直接液體冷卻系統的底盤功率為 3862 瓦，相差 14.9%。

正平公關於 2023-11-22 15:20:03 修改文章內容

商業贊助

發文數：1
發表時間:2026-02-25 23:10:45