2022年9月7日,在悉尼舉辦的國際數(shù)據(jù)庫與數(shù)據(jù)管理頂級會議VLDB 2022(International Conference on Very Large Databases,簡稱VLDB)上,北京大學計算機學院崔斌教授課題組的論文“基于分布式緩存的大規(guī)模可擴展嵌入模型訓練框架(HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework)”獲得大會可擴展數(shù)據(jù)科學最佳論文獎(Best Scalable Data Science Paper)。
VLDB大會頒獎典禮
VLDB是數(shù)據(jù)庫與數(shù)據(jù)管理領域的三個頂級會議之一,自1975年開辦至今,VLDB會議已經(jīng)成功舉辦了48屆,被中國計算機學會列為A類推薦國際學術會議。本次VLDB 2022會議的研究論文投稿分為Regular Research Papers(常規(guī)研究)、Scalable Data Science Papers (可擴展數(shù)據(jù)科學)、Experiment, Analysis & Benchmark Papers(實驗、分析和基準)和Vision Papers四個類別,共收錄了198篇研究論文,評選出Regular Research、Experiment, Analysis and Benchmark、Scalable Data Science三篇最佳研究論文獎。獲獎論文HET在眾多論文中脫穎而出,并在大會開幕當日進行首個論文報告。
VLDB大會論文報告現(xiàn)場
稀疏嵌入大模型是目前參數(shù)量可以達到萬億規(guī)模的重要深度學習模型類型之一,被廣泛應用于搜索廣告推薦、圖表示學習等場景,學習數(shù)據(jù)中的高維離散稀疏特征表達。現(xiàn)有分布式訓練系統(tǒng)大部分采用參數(shù)服務器架構,面臨著嚴峻的通信瓶頸。為了解決該問題,獲獎論文提出了一套基于嵌入緩存的新一代稀疏大模型訓練架構HET。具體來說,論文利用稀疏大模型對嵌入?yún)?shù)的非均勻訪問特性,設計了一種支持嵌入?yún)?shù)緩存的混合通信架構;同時,為了解決分布式緩存的一致性問題,設計了一種細粒度嵌入向量時鐘的有限異步協(xié)議。實驗表明,HET可以降低88%的通信代價,訓練速度可以提升20倍以上,支持萬億規(guī)模稀疏大模型的高效分布式訓練。
獲獎證書
本文第一作者為計算機學院2017級博士生苗旭鵬,通訊作者為崔斌教授和楊智副研究員,論文作者還包括2020級博士生張海林,2021級碩士生石屹寧,2019級博士生聶小楠,以及來自騰訊機器學習平臺部的陶陽宇。
目前,論文所提出的HET框架已經(jīng)集成到了課題組自研的分布式深度學習系統(tǒng)河圖(Hetu),并在GitHub開源:https://github.com/PKU-DAIR/Hetu。河圖主要應用在云計算以及人工智能場景,可以提高深度學習模型訓練效率,降低深度學習模型開發(fā)成本,推動深度學技術創(chuàng)新以及 AI 產(chǎn)業(yè)的快速落地。河圖作為唯一高校代表成果入選了2021年AI中國年度十大開源事件,在中國計算機學會BDCI大賽等多個賽事取得最高獎,并在包括騰訊等多個公司的實際業(yè)務場景得到應用,取得顯著的經(jīng)濟效益。
崔斌教授VLDB大會特邀報告
近幾年來,崔斌教授課題組河圖團隊圍繞大規(guī)模機器學習以及深度學習系統(tǒng)優(yōu)化,展開了一系列系統(tǒng)性研究工作,相關成果已陸續(xù)發(fā)表于SIGMOD、VLDB、ICDE、ICML、KDD、TKDE等國際頂級會議和期刊,取得了學術界和工業(yè)界的廣泛關注。此次獲獎,表明北京大學在可擴展數(shù)據(jù)科學與機器學習系統(tǒng)領域的研究水平持續(xù)處于國際前沿水平。另外,崔斌教授也在此次VLDB大會上進行了題為“面向大模型的分布式機器學習(Distributed Machine Learning for Big Models)”的特邀報告,介紹了實驗室在大模型訓練方面的系統(tǒng)性進展,受到了與會同行的一致好評。
想認識全國各地的創(chuàng)業(yè)者、創(chuàng)業(yè)專家,快來加入“中國創(chuàng)業(yè)圈”
|