正如德州的達拉斯/ 沃斯堡機場成為全美旅客的交通樞紐,南衛理公會大學的人要是也能按照自己的心意行事,德州北部亦將搖身一變,成為通往人工智慧(AI) 世界的門戶。
擁有超過 1.2 萬名學生及 2,400 名教職員工的南衛理公會大學,將安裝一台加速 NVIDIA DGX SuperPOD 超級電腦,預計將用於支援各項機器學習專案。
美國中南部有三所大學宣布打算利用 NVIDIA 的技術來高速推動研究活動,南衛理公會大學正是其中之一。
德州農工大學與密西西比州立大學這兩所大學,將採用我們每秒運算能力達 400 Gbit 的 InfiniBand 網路平台 NVIDIA Quantum-2,作為兩校最新高效能電腦的骨幹。英國的一台超級電腦也升級了它使用的 InfiniBand 網路。
德州將利用 SuperPOD 的強大運算實力
南衛理公會大學資訊長 Michael Hites 表示:「我們是全美第二所使用 DGX SuperPOD 的大學,這將使得本校在 AI 能力方面處於領先地位,用於推動我們的學位課程及企業合作關係。」他提到了今年初佛羅里達大學所安裝的系統。
九月時的一份報告指出,達拉斯地區因缺乏重大 AI 研究活動而顯得「步履蹣跚」。諷刺的是,就在南衛理公會大學完成其 DGX SuperPOD 計畫之際,這篇報導登上了當地報紙。
南衛理公會大學在三月的報告中預告了這項計畫,並且在報告中稱 AI 是「數位轉型的核心,社會的各方面都會受到這項技術的影響。極有可能顯著改善 K-12 教育與勞動力發展一事,將有助於該地區的經濟持續增長。」
南衛理公會大學在九月時啟動 SMU Ignite 募款活動,目標是籌到 15 億美元,用於推動各項 AI 發展計畫,協助南衛理公會大學躋身全美頂尖研究大學。該校將聘請一名創新長來指導這項工作。
打造一個運算坩堝
管理著南衛理公會大學研究人員支援 IT 團隊的 Jason Warner 表示,這一切都與人脫不了關係。因此,他聘請了一批具開創性的資料科學專家,進駐南衛理公會大學福特研究創新大廳內新落成的中心,Warner 稱其是南衛理公會大學的「運算坩堝」。
Eric Godat 帶領著這個團隊。他擁有南衛理公會大學的粒子物理學博士學位,利用大型強子對撞機 (Large Hadron Collider) 的資料來模擬核結構。
他鼓勵南衛理公會大學的學生,多加利用在 DGX SuperPOD 上進行研究的機會。一開始,他要求南衛理公會大學的兩名學生使用 NVIDIA Jetson 模組,建造一個 DGX SuperPOD 的微型模型。
Godat 表示:「我們想讓人們、尤其是未曾接觸過 AI 也非出身自技術領域的人,感覺一下未來會是什麼樣子。」
圖_南衛理公會大學的大學部學生 Connor Ozenne 打造一台微型的 DGX SuperPOD,過程登上了南衛理公會大學的年度報告。它在一個叢集中使用了 16 個 Jetson 模組,學生們可以把它當成一套 TOP500 系統來進行基準測試。
這台全尺寸超級電腦由 20 套在 NVIDIA Quantum InfiniBand 網路上運行的 NVIDIA DGX A100 系統組成,而樂高積木一般的模組化架構,讓它最快將可於一月時啟動並運行。這台超級電腦將提供高達 100 petaflops 的運算能力,足以讓它在全球最快超級電腦的 TOP500 名單上佔據一席之地。
德州農工大學的 ACES 超級電腦使用 Quantum-2 InfiniBand
向南約 200 英哩,德州農工大學的高效能運算中心將成為首批採用 NVIDIA Quantum-2 InfiniBand 平台的單位之一。該校的 ACES 超級電腦由戴爾科技 (Dell Technologies) 公司建造,將透過 400G InfiniBand 網路,把研究人員與四家業者所提供的五台加速器串連起來。
德州農工大學 ACES 的主要研究員與專案總監 Honggao Liu 表示:「NVIDIA Quantum-2 確保可以利用所有運算核心與加速器擴大 ACES 超級電腦上的單項作業。NVIDIA Quantum-2 的輸送量每秒達到 400G,顯然是每秒輸送量為 200G 的 NVIDIA Quantum-1 InfiniBand的 2 倍,它也改善了總持有成本,加強網路運算功能與提高擴展性。」
德州農工大學已經讓研究人員可以在四套系統上使用加速運算技術,其中包括超過 600 個 NVIDIA A100 Tensor Core 及前一代 GPU。四套系統中有兩套使用舊版 NVIDIA InfiniBand 技術。
密西西比州立大學搭上 400G 的高速列車
密西西比州立大學也將使用 NVIDIA Quantum-2 InfiniBand 平台。密西西比州立大學為補充 Orion 超級電腦的新系統,優先選擇 NVIDIA Quantum-2 InfiniBand 網路平台,而 Orion 超級電腦是密西西比州立大學所管理之四個叢集裡最大的一個叢集,這四個叢集皆使用舊版 InfiniBand 技術。
Orion 超級電腦與新系統皆由美國國家海洋暨大氣總署 (National Oceanic and Atmospheric Administration;NOAA) 資助,由戴爾公司負責建造。它們執行 NOAA 交派的任務,密西西比州立大學也會用它來進行各項研究。
Orion 超級電腦在 2019 年 6 月首次登上 TOP500 排行榜,當時名列為全美第四大學術超級電腦。
密西西比州立大學高效能運算中心主任 Trey Breckenridge 表示:「密西西比州立大學的四代超級電腦都是使用 InfiniBand,我們知道它既強大又成熟,能夠可靠穩定地運行各項大型作業。我們將加入搭配 NVIDIA Quantum-2 的新系統,以保持在高效能運算領域的領先優勢。」
量子網路覆蓋英國
而在大西洋對面的英國,萊斯特大學的資料密集型超級電腦 (DlaL 系統) 已經升級到 NVIDIA Quantum,即 200G 版本的 InfiniBand。
萊斯特大學理論天體物理學教授暨高效能運算中心主任 Mark Wilkinson 表示:「DIaL 超級電腦專門用於解決資料密集型的複雜問題,我們必須解開當中的謎題,才能對宇宙有更深入的認識。我們要靠著無與倫比的龐大頻寬及超低延遲性,才能應付這些專業作業負載在處理密集資料方面的要求,只有 InfiniBand 能夠提供使研究成為可能。」
DIaL 是英國 DiRAC 設施中使用 InfiniBand 的四台超級電腦之一,其中包括愛丁堡大學的 Tursa 系統。
InfiniBand 在評估活動中大放異彩
研究人員在一項技術評估活動中,發現搭載 NVIDIA GPU 加速器的 Tursa 超級電腦,在量子網路上的運行表現,是使用替代互連技術且僅搭載 CPU 之 Tesseract 系統的五倍。
應用程式基準測試結果顯示,Tursa 系統 16 個節點的運算效能,是 Tesseract 系統 512 個節點的 2 倍。Tursa 系統使用 90% 的網路頻寬,提供每個節點 10 teraflops 的運算能力,比起 Tesseract 系統,每千瓦的運算效能高出不少。
從這個例子又能看出,全球多數 TOP500 系統紛紛採用 NVIDIA 技術的原因。
如需瞭解更多資訊,歡迎觀看 NVIDIA 於台灣時間 11 月 16 日在 SC21 大會直播的特別演講。