蘇州納米所劉欣研究員、周揚(yáng)帆博士等在非凸優(yōu)化算法研究方面取得進(jìn)展
近年來,深度學(xué)習(xí)在材料科學(xué)領(lǐng)域中的原子模擬、材料成像、光譜分析等方向取得快速發(fā)展。與此同時(shí),在芯片設(shè)計(jì)領(lǐng)域,為了滿足邊緣計(jì)算場景的算力需求,人工智能芯片也正在逐步完成與深度神經(jīng)網(wǎng)絡(luò)的高度適配。目前,由OpenAI公司推出的ChatGPT模型正在引領(lǐng)一次新的技術(shù)變革,該模型的本質(zhì)就是一個(gè)超大規(guī)模的深度神經(jīng)網(wǎng)絡(luò),屬于深度學(xué)習(xí)框架。根據(jù)實(shí)踐目標(biāo)可以將深度學(xué)習(xí)劃分為兩個(gè)階段:訓(xùn)練階段和推理階段。訓(xùn)練階段是指通過一定的訓(xùn)練算法得到深度模型的參數(shù);推理階段就是將深度模型應(yīng)用到實(shí)際場景中進(jìn)行預(yù)測和分析,比如目前的ChatGPT模型就已經(jīng)處于推理階段。
由于深度模型具有龐大的特征參數(shù)和高維的數(shù)據(jù),比如ChatGPT模型包含1750億個(gè)參數(shù)、BERT模型含有1億個(gè)以上的參數(shù),因此深度模型訓(xùn)練越來越成為一項(xiàng)極具挑戰(zhàn)性的任務(wù)。通常來說,為了訓(xùn)練深度模型,可以通過最小化損失函數(shù)的值,將其轉(zhuǎn)化為一個(gè)典型的非凸優(yōu)化問題。然而,非凸優(yōu)化問題中優(yōu)化算法的收斂性往往是一個(gè)難以解決的問題。另外,因高維征向量帶來的高昂計(jì)算成本問題也是制約深度模型訓(xùn)練任務(wù)順利進(jìn)行的另一個(gè)難題。
中國科學(xué)院蘇州納米技術(shù)與納米仿生研究所劉欣研究員、周揚(yáng)帆等針對非凸優(yōu)化問題中自適應(yīng)優(yōu)化算法的高維向量運(yùn)算問題,提出了一種基于塊坐標(biāo)下降的自適應(yīng)優(yōu)化算法,簡稱為RAda(偽代碼如圖1所示)。該算法利用塊坐標(biāo)下降優(yōu)化技術(shù),在每輪迭代時(shí)隨機(jī)的選取特征向量的一塊坐標(biāo)完成梯度計(jì)算及其他向量運(yùn)算,從而大大減少每輪迭代的計(jì)算成本,減輕了深度模型訓(xùn)練對硬件設(shè)備的嚴(yán)重依賴。
圖1.RAda算法偽代碼
該研究團(tuán)隊(duì)在非凸優(yōu)化理論框架下,得到如下關(guān)于收斂界的結(jié)論:

其中T表示迭代次數(shù),p、η、σ均為參數(shù),f表示損失函數(shù)。從上述結(jié)論可推論出RAda在非凸條件下可以收斂到一個(gè)具有δ精度的近似解。
RAda算法的一個(gè)重要優(yōu)勢是每輪迭代的計(jì)算成本很低,不僅耗時(shí)少,而且對硬件算力的要求也很低。為此,實(shí)驗(yàn)部分對RAda算法的計(jì)算成本進(jìn)行了對比驗(yàn)證。圖2展示了RAda和其他對比算法在CIFAR-10和CIFAR-100數(shù)據(jù)集上訓(xùn)練損失隨運(yùn)行時(shí)間的變化情況。RAda達(dá)到最好精度的運(yùn)行時(shí)間最少,說明其計(jì)算成本最低。
圖2. 算法計(jì)算成本對比試驗(yàn)
綜上,該研究工作從理論上證明了RAda在非凸情況下具有理論保證的收斂性,并且通過實(shí)驗(yàn)驗(yàn)證了該算法的計(jì)算成本比其他主流算法更低,這可以幫助完成很多場景下的深度模型訓(xùn)練任務(wù),尤其是在邊緣計(jì)算中端側(cè)算力嚴(yán)重受限的情況下。因此,在邊緣端人工智能芯片研發(fā)領(lǐng)域具有很大的應(yīng)用前景。
相關(guān)工作以Randomized block-coordinate adaptive algorithms for nonconvex optimization problems為題發(fā)表在人工智能頂級期刊Engineering Applications of Artificial Intelligence上。文章第一作者為中國科學(xué)院蘇州納米技術(shù)與納米仿生研究所博士研究生周揚(yáng)帆,通訊作者為劉欣研究員。該工作得到了蘇州市外國專家計(jì)劃等項(xiàng)目的資助。
附件下載:

