中文題目:一種面向聯(lián)邦學(xué)習(xí)的分層激勵(lì)機(jī)制
論文題目:A Hierarchical Incentive Mechanism for Federated Learning
錄用期刊/會(huì)議: IEEE Transactions on Mobile Computing (CCF A)
原文DOI: 10.1109/TMC.2024.3423399
作者列表:
1) 黃霽崴 中國(guó)石油大學(xué)(北京) 人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系 教授
2) 馬博聞 中國(guó)石油大學(xué)(北京) 人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 碩21
3) 陳 瑩 北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院 教授
4) 吳 遠(yuǎn) 澳門(mén)大學(xué) 智慧城市物聯(lián)網(wǎng)國(guó)家重點(diǎn)實(shí)驗(yàn)室 副教授
5) Xuemin (Sherman) Shen University of Waterloo Department of Electrical and Computer Engineering Professor
摘要:
隨著移動(dòng)計(jì)算的爆炸性發(fā)展,聯(lián)邦學(xué)習(xí)被認(rèn)為是一種有前途的分布式訓(xùn)練框架,可以解決傳統(tǒng)云端集中式訓(xùn)練的不足。在聯(lián)邦學(xué)習(xí)中,本地模型所有者各自訓(xùn)練本地模型,然后將訓(xùn)練后的本地模型上傳給任務(wù)發(fā)布者進(jìn)行聚合,以獲得全局模型。當(dāng)本地模型所有者提供的數(shù)據(jù)不滿(mǎn)足模型訓(xùn)練要求時(shí),他們可以招聘工人來(lái)收集數(shù)據(jù)。在本文中,我們考慮到任務(wù)發(fā)布者、本地模型所有者和工人之間的互動(dòng),提出了一個(gè)三層層次的博弈框架。然而,這其中存在兩個(gè)挑戰(zhàn)。首先,工人與本地模型所有者之間的信息不對(duì)稱(chēng)可能導(dǎo)致工人隱瞞其真實(shí)類(lèi)型。其次,任務(wù)發(fā)布者與本地模型所有者之間的激勵(lì)不匹配可能導(dǎo)致本地模型所有者缺乏參與聯(lián)邦學(xué)習(xí)的意愿。因此,我們將層次框架分解為兩層以解決這些挑戰(zhàn)。對(duì)于底層,我們利用契約理論確保工人如實(shí)報(bào)告其類(lèi)型,并在此基礎(chǔ)上簡(jiǎn)化契約的可行條件并設(shè)計(jì)最優(yōu)合同。對(duì)于上層,我們采用Stackelberg博弈來(lái)建模任務(wù)發(fā)布者與本地模型所有者之間的互動(dòng),并推導(dǎo)出納什均衡和Stackelberg均衡解。此外,我們開(kāi)發(fā)了一個(gè)基于迭代的層次效用最大化算法(HUMA)來(lái)解決上層和下層博弈之間的耦合問(wèn)題。廣泛的數(shù)值實(shí)驗(yàn)結(jié)果驗(yàn)證了HUMA的有效性,比較結(jié)果說(shuō)明了HUMA的性能提升。
背景與動(dòng)機(jī):
盡管聯(lián)邦學(xué)習(xí)在協(xié)作學(xué)習(xí)和用戶(hù)隱私保護(hù)方面顯示出了巨大的優(yōu)勢(shì),但如果邊緣節(jié)點(diǎn)沒(méi)有足夠的訓(xùn)練資源,聯(lián)邦學(xué)習(xí)的性能將會(huì)下降。因此,激勵(lì)本地模型所有者參與聯(lián)邦學(xué)習(xí)并確保他們擁有足夠的數(shù)據(jù)至關(guān)重要。許多技術(shù)已被應(yīng)用于設(shè)計(jì)激勵(lì)機(jī)制,包括契約理論、Stackelberg博弈和拍賣(mài)等。然而,現(xiàn)有研究通常只關(guān)注任務(wù)發(fā)布者與本地模型所有者之間或本地模型所有者與工人之間的激勵(lì)機(jī)制設(shè)計(jì),未能充分考慮當(dāng)本地模型所有者提供的數(shù)據(jù)不足以滿(mǎn)足模型訓(xùn)練需求時(shí)的特征,以及工人在數(shù)據(jù)收集過(guò)程中的邊際效用遞減規(guī)律。為此,本文提出了一個(gè)基于分層博弈的三層框架,旨在分析任務(wù)發(fā)布者、本地模型所有者和工人之間的相互作用,設(shè)計(jì)有效的激勵(lì)機(jī)制以激勵(lì)工人收集數(shù)據(jù)和本地模型所有者參與聯(lián)邦學(xué)習(xí),并解決激勵(lì)不匹配和信息不對(duì)稱(chēng)問(wèn)題。
主要內(nèi)容:
如圖1所示,我們考慮了一個(gè)分層聯(lián)邦學(xué)習(xí)框架,包括一個(gè)中心節(jié)點(diǎn)、多個(gè)邊緣節(jié)點(diǎn)和多個(gè)數(shù)據(jù)擁有者。中心節(jié)點(diǎn)負(fù)責(zé)發(fā)布聯(lián)邦學(xué)習(xí)任務(wù)和總獎(jiǎng)勵(lì)以吸引感興趣的邊緣節(jié)點(diǎn)加入并獲得獎(jiǎng)勵(lì)。邊緣節(jié)點(diǎn)根據(jù)任務(wù)的要求,選擇合適的數(shù)據(jù)樣本并參與到聯(lián)邦學(xué)習(xí)的訓(xùn)練當(dāng)中。如果邊緣節(jié)點(diǎn)缺少訓(xùn)練數(shù)據(jù),它們可以發(fā)布數(shù)據(jù)收集任務(wù),吸引數(shù)據(jù)擁有者提供數(shù)據(jù)并給予獎(jiǎng)勵(lì)。整體框架分為兩層,旨在保護(hù)參與者的數(shù)據(jù)隱私并發(fā)揮聯(lián)邦學(xué)習(xí)的優(yōu)勢(shì)。

圖1 系統(tǒng)模型
中心節(jié)點(diǎn)的目標(biāo)是最大化其收益,同時(shí)激勵(lì)邊緣節(jié)點(diǎn)參與聯(lián)邦學(xué)習(xí)任務(wù),通過(guò)提供總獎(jiǎng)勵(lì)來(lái)激勵(lì)邊緣節(jié)點(diǎn)共享數(shù)據(jù)和計(jì)算資源。中心節(jié)點(diǎn)的效用函數(shù)反映了中心節(jié)點(diǎn)通過(guò)聯(lián)邦學(xué)習(xí)獲得的凈效益,即模型準(zhǔn)確度帶來(lái)的收益減去支付給邊緣節(jié)點(diǎn)的總獎(jiǎng)勵(lì),具體如下所示:
![]()
在進(jìn)行聯(lián)邦學(xué)習(xí)任務(wù)時(shí),邊緣節(jié)點(diǎn)利用其本地?cái)?shù)據(jù)樣本進(jìn)行模型訓(xùn)練以獲得收益,但此過(guò)程也涉及一定的訓(xùn)練成本,這包括計(jì)算成本、通信成本以及數(shù)據(jù)采集費(fèi)用,邊緣節(jié)點(diǎn)n的效用函數(shù)可以定義為:
![]()
從經(jīng)濟(jì)學(xué)的角度出發(fā),使用基于邊際效用遞減法則的疲勞損失函數(shù)來(lái)描述數(shù)據(jù)擁有者在收集數(shù)據(jù)時(shí)的負(fù)面效益,疲勞損失函數(shù)是非遞減且凸的,這意味著其邊際損失隨著的x增加而增加。具體來(lái)說(shuō),該函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)均為非負(fù)的,表明了每增加一個(gè)數(shù)據(jù)單位,損失的增加速度是加快的。因此,屬于邊緣節(jié)點(diǎn)n的第m類(lèi)數(shù)據(jù)擁有者的效用函數(shù)表示為:
![]()
整個(gè)系統(tǒng)內(nèi)的效用最大化問(wèn)題可以被表述為尋求三個(gè)參與者之間的最優(yōu)策略組合,以實(shí)現(xiàn)各自利益的最大化。這可以形式化為以下優(yōu)化問(wèn)題:

在上層博弈中,采用兩階段的Stackelberg博弈來(lái)模擬中心節(jié)點(diǎn)與邊緣節(jié)點(diǎn)之間的動(dòng)態(tài)互動(dòng)。在博弈的第一階段,中心節(jié)點(diǎn)公布總獎(jiǎng)勵(lì)。接著,在第二階段,邊緣節(jié)點(diǎn)根據(jù)公布的獎(jiǎng)勵(lì)決定自己的參與程度,以最大化個(gè)體效用,其中邊緣節(jié)點(diǎn)策略體現(xiàn)為貢獻(xiàn)的數(shù)據(jù)樣本數(shù)量。鑒于每個(gè)邊緣節(jié)點(diǎn)都追求自身效用的最大化,且行為自私且理性,邊緣節(jié)點(diǎn)之間的互動(dòng)可以轉(zhuǎn)化為一個(gè)非合作博弈,其中的納什均衡反映了各方的最優(yōu)策略。在下層博弈中,由于邊緣節(jié)點(diǎn)不知道數(shù)據(jù)擁有者的私有屬性,數(shù)據(jù)擁有者會(huì)隱瞞它們的類(lèi)型以獲取更多的獎(jiǎng)勵(lì)。因此,可以應(yīng)用契約理論來(lái)解決邊緣節(jié)點(diǎn)和數(shù)據(jù)擁有者之間的信息不對(duì)稱(chēng)問(wèn)題。在這一部分,本文提出了契約理論的可行條件,優(yōu)化了其可行條件,并最終給出了最優(yōu)契約的解析解。上層和下層的激勵(lì)機(jī)制設(shè)計(jì)問(wèn)題已經(jīng)被分別解決。然而,由于上下層的耦合,不能直接進(jìn)行求解,我們提出了基于分層的效用最大化算法來(lái)解決上述問(wèn)題。



實(shí)驗(yàn)結(jié)果及分析:
我們?cè)O(shè)計(jì)了大量模擬實(shí)驗(yàn),以評(píng)估分層激勵(lì)機(jī)制框架的有效性和算法的最優(yōu)性。圖2顯示了本地模型擁有者在選擇任務(wù)發(fā)布者設(shè)計(jì)的不同契約條目時(shí)的效用。

圖2 本地模型擁有者的效用
圖3顯示了上層博弈本地模型擁有者和任務(wù)發(fā)布者在迭代過(guò)程中效用和策略的變化情況。

圖3 上層博弈中迭代次數(shù)變化對(duì)性能的影響。(a) 本地模型擁有者的策略。(b) 任務(wù)發(fā)布者的效用和策略。(c) 本地模型擁有者的效用。
圖4展示了三層博弈框架中工人、本地模型擁有者和任務(wù)發(fā)布者在迭代過(guò)程中效用和策略的變化情況。

圖4 三層博弈框架中迭代次數(shù)變化對(duì)性能的影響。(a) 工人的實(shí)際疲勞水平。(b) 本地模型擁有者的策略。(c) 任務(wù)發(fā)布者的效用和策略。
圖5展示了在不同定價(jià)方案下,不同種類(lèi)工人的效用、獎(jiǎng)勵(lì)以及數(shù)據(jù)收集的定價(jià)。

圖5 在不同定價(jià)方案下,工人的屬性變化 (a) 工人的效用。(b) 工人的獎(jiǎng)勵(lì)。(c) 工人數(shù)據(jù)收集的單價(jià)。
結(jié)論:
在本文中,我們提出了一種用于聯(lián)邦學(xué)習(xí)的分層博弈框架,包括任務(wù)發(fā)布者、多個(gè)本地模型所有者和多種類(lèi)型的工人。由于框架中的激勵(lì)不匹配問(wèn)題,作者將框架分解為兩個(gè)子博弈。在上層博弈中,采用基于Stackelberg博弈的激勵(lì)機(jī)制來(lái)激勵(lì)本地模型所有者增加參與水平。在下層博弈中,應(yīng)用契約理論解決本地模型所有者和工人之間的信息不對(duì)稱(chēng)問(wèn)題。隨后,開(kāi)發(fā)了統(tǒng)一算法HUMA來(lái)解決層次游戲框架的效用最大化問(wèn)題。在該框架中,本文捕獲了當(dāng)本地模型所有者提供的數(shù)據(jù)不滿(mǎn)足模型訓(xùn)練要求時(shí),任務(wù)發(fā)布者、本地模型所有者和工人之間的互動(dòng),并相應(yīng)地設(shè)計(jì)了激勵(lì)機(jī)制以激勵(lì)他們加入聯(lián)邦學(xué)習(xí)。最后,通過(guò)數(shù)值實(shí)驗(yàn)展示了所提出方案的有效性和優(yōu)勢(shì)。未來(lái)的工作中,我們將進(jìn)一步考慮任務(wù)的動(dòng)態(tài)到達(dá)和環(huán)境(如時(shí)變信道),研究適應(yīng)性的層次激勵(lì)機(jī)制框架。此外,還將考慮更復(fù)雜的隱私問(wèn)題,并研究不同類(lèi)型的工人在層次激勵(lì)機(jī)制框架中與不同質(zhì)量水平的訓(xùn)練樣本相關(guān)聯(lián)的問(wèn)題。
作者簡(jiǎn)介:
黃霽崴,教授,博士生導(dǎo)師,中國(guó)石油大學(xué)(北京)人工智能學(xué)院副院長(zhǎng),石油數(shù)據(jù)挖掘北京市重點(diǎn)實(shí)驗(yàn)室主任。入選北京市優(yōu)秀人才、北京市科技新星、北京市國(guó)家治理青年人才、昌聚工程青年人才、中國(guó)石油大學(xué)(北京)優(yōu)秀青年學(xué)者。本科和博士畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,美國(guó)佐治亞理工學(xué)院聯(lián)合培養(yǎng)博士生。研究方向包括:物聯(lián)網(wǎng)、服務(wù)計(jì)算、邊緣智能等。已主持國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃、北京市自然科學(xué)基金等科研項(xiàng)目18項(xiàng);以第一/通訊作者在國(guó)內(nèi)外著名期刊和會(huì)議發(fā)表學(xué)術(shù)論文60余篇,其中1篇獲得中國(guó)科協(xié)優(yōu)秀論文獎(jiǎng),2篇入選ESI熱點(diǎn)論文,4篇入選ESI高被引論文;出版學(xué)術(shù)專(zhuān)著1部;獲得國(guó)家發(fā)明專(zhuān)利6項(xiàng)、軟件著作權(quán)4項(xiàng);獲得中國(guó)通信學(xué)會(huì)科學(xué)技術(shù)一等獎(jiǎng)1項(xiàng)、中國(guó)產(chǎn)學(xué)研合作創(chuàng)新成果一等獎(jiǎng)1項(xiàng)、廣東省計(jì)算機(jī)學(xué)會(huì)科學(xué)技術(shù)二等獎(jiǎng)1項(xiàng)。擔(dān)任中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)服務(wù)計(jì)算專(zhuān)委會(huì)委員,CCF和IEEE高級(jí)會(huì)員,電子學(xué)報(bào)、Chinese Journal of Electronics、Scientific Programming等期刊編委。