全球最受歡迎的資料分析應用程式 Apache Spark 現已透過先前發布的 Spark 3.0 版本,為超過 50 萬用戶提供革命性的 GPU 加速技術。
Databricks 為用戶提供先進的企業雲端平台 Spark,每天有超過 100 萬台虛擬機器運行該平台。在 Spark + AI Summit 峰會上,Databricks 宣布其用於機器學習的 Databricks Runtime 7.0 將配備內置 Spark 3.0 的 GPU 加速器感知調度功能。該功能由 Databricks 與 NVIDIA 和其他社群成員合作開發。
Google Cloud 近期宣布在 Dataproc image 2.0 版本上提供 Spark 3.0 預覽版本,並表示在開源社群的協作下,現已獲得強大的 NVIDIA GPU 加速功能支援。NVIDIA 將於台灣時間 7 月 17 日與 Google Cloud 共同舉辦一場網路研討會,深入探討這些令資料科學家感到興奮的新功能。
此外,全新用於 Apache Spark 的開源 RAPIDS 加速器現在可以加速 ETL (擷取、轉換、載入) 和資料傳輸作業,並且在無需調整任何代碼的情況下,提高端到端的分析效能。
Spark 的效能加速不僅意味著能夠更快獲得有效洞察,還可以協助企業以更少的基礎架構來完成作業負載,進而降低成本。
加速資料分析:科學運算理解人工智慧
Spark 有充分的理由逐漸成為媒體報導的焦點。
資料對於幫助企業組織應對不斷變化的機會和潛在威脅至關重要。為此,他們需要破解隱藏在資料中的關鍵線索。
每當客戶點閱網站、撥打客服電話或製作每日銷售報告時,就會貢獻大量的資訊給企業組織。隨著人工智慧 (AI) 的興起,資料分析對於協助公司發掘趨勢,以及在持續變化的市場中保持領先地位日益重要。
不久前,資料分析還倚賴小型資料集來收集歷史資料和洞察,透過 ETL 對儲存在傳統資料倉儲中的高度結構化資料進行分析。
ETL 經常成為資料科學家在獲取 AI 預測和建議時的阻礙。據估計,ETL 會佔用資料科學家 70% 至 90% 的時間,不僅減慢工作流程,也將炙手可熱的人才束縛在最平凡的工作上。
當資料科學家在等待 ETL 時,他們無法重新訓練模型以獲取更好的商業洞察。傳統的 CPU 基礎架構無法透過有效的擴展來適應這些作業負載,同時這通常會大幅增加成本。
有了 GPU 加速的 Spark,ETL 將不會再發生這樣的問題。醫療、娛樂、能源、金融、零售等產業現在可以透過符合成本效益的方式,加速其資料洞察分析。
資料分析的平行處理能力
GPU 平行處理使電腦可以同時執行多項作業。資料中心透過大規模橫向擴展這些功能來支援複雜的資料分析專案。隨著越來越多的企業組織開始採用 AI 和機器學習工具,平行處理已成為加速海量資料分析,以及驅動這些作業負載的 ETL 管道的關鍵。
比如有一家零售商想要預測下一季的庫存,該零售商需要檢查近期的銷售量以及去年的資料。一個精明的資料科學家可能會在此分析中添加天氣模型,從而了解雨季或旱季對結果產生的影響。零售商還可以整合情緒分析資料,評估今年最流行的趨勢。
由於需要分析的資料源太多,因此在可能對銷售量產生影響的不同變數進行建模時,速度就顯得更為重要。這就需要將分析加入到機器學習中,而 GPU 也因此變得不可或缺。
RAPIDS 加速器為 Apache Spark 3.0 加速
隨著資料科學家從使用傳統的分析轉為採用可以更好地對複雜市場需求進行建模的 AI 應用程式時,如果繼續採用 CPU,則必須犧牲速度或增加成本才能跟上由此產生的處理需求。而隨著 AI 在分析中的應用日益增加,需要有新的框架透過 GPU 快速並具成本效益地處理資料。
用於 Apache Spark 的全新 RAPIDS 加速器,將 Spark 分佈式運算框架與功能強大的 RAPIDS cuDF 函式庫相連接,實現了 GPU 對 Spark DataFrame 和 Spark SQL 的運行加速。RAPIDS 加速器還透過搜尋在 Spark 節點之間移動資料的最快路徑來加快 Spark Shuffle 的運行速度。
登錄 GitHub 頁面 了解用於 Apache Spark 的 RAPIDS 加速器。
以下為在 GPU 上加速的 Spark 3.0 影片:
資料科學家可以透過 NVIDIA 的免費 Spark 3.0 電子書 了解更多關於 Spark 3.0 的資訊。