金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

基于非貫穿式張量劃分的協(xié)同推理加速

中文題目:基于非貫穿式張量劃分的協(xié)同推理加速

論文題目Collaborative Inference Acceleration with Non-Penetrative Tensor Partitioning

錄用期刊/會(huì)議2025 IEEE International Conference on Acoustics, Speech, and Signal Processing(CCF B)

原文鏈接:https://arxiv.org/abs/2501.04489

錄用時(shí)間:2024年12月21日

作者列表

1)劉志邦 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程專(zhuān)業(yè) 21

2)徐朝農(nóng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)系教師

3呂振杰 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)  22

4劉志卓 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 先進(jìn)科學(xué)與工程計(jì)算專(zhuān)業(yè) 22

5趙蘇豫 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)技術(shù)專(zhuān)業(yè) 22

摘要:

邊緣設(shè)備上進(jìn)行大尺寸圖像推理通常受到計(jì)算資源的限制。目前,基于圖像劃分的協(xié)同推理解決這一問(wèn)題的有效方案,即將大尺寸圖像劃分為多張子圖,并將每個(gè)子圖分配給不同的邊緣設(shè)備執(zhí)行推理。然而,各子圖劃分邊界的數(shù)據(jù)共享會(huì)帶來(lái)一定的通信開(kāi)銷(xiāo),導(dǎo)致額外的推理時(shí)延。為了解決這一問(wèn)題,本文提出了一種非貫穿式張量劃分(Non-Penetrative Tensor Partitioning,NPTP)方案,通過(guò)最小化子圖劃分邊界的通信數(shù)據(jù)量來(lái)降低通信時(shí)延,進(jìn)而減少整體推理延遲。我們?cè)谒姆N廣泛使用的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN模型上對(duì)NPTP進(jìn)行了評(píng)估。實(shí)驗(yàn)結(jié)果表明,與協(xié)同推理算法CoEdge相比,NPTP實(shí)現(xiàn)了1.44至1.68倍的推理加速。

背景與動(dòng)機(jī):

隨著邊緣計(jì)算和深度學(xué)習(xí)技術(shù)的普及,CNN在醫(yī)療、工業(yè)、交通等領(lǐng)域得到了廣泛應(yīng)用。但其在部署和推理過(guò)程面臨著推理的實(shí)時(shí)性需求以及設(shè)備計(jì)算與存儲(chǔ)資源受限等挑戰(zhàn)。針對(duì)以上問(wèn)題,現(xiàn)有解決方案通常采用多設(shè)備協(xié)同推理方式。以圖1中的圖像分類(lèi)應(yīng)用為例,模型特征提取部分被復(fù)制并分別部署在設(shè)備 A、B 和 C 上。輸入圖像被貫穿式的劃三個(gè)部分,并分別輸入到這些設(shè)備中以生成三個(gè)特征圖。在分類(lèi)階段,這三個(gè)特征圖將在某個(gè)設(shè)備(如圖中設(shè)備 B)上進(jìn)行聚合,以完成剩余的分類(lèi)任務(wù)。

image.png

1 基于圖像劃分的協(xié)同推理方案

然而,由于CNN模型特征提取層中的卷積操作是通過(guò)滑動(dòng)窗口方式執(zhí)行計(jì)算的,如圖1所示,對(duì)原始圖像進(jìn)行貫穿式劃分會(huì)導(dǎo)致某些設(shè)備在卷積過(guò)程中缺少完整的輸入數(shù)據(jù)。因此,保證推理結(jié)果的準(zhǔn)確性,這些設(shè)備必須從相鄰設(shè)備獲取缺失的邊界圖像數(shù)據(jù)(也稱(chēng)為共享數(shù)據(jù)),這一過(guò)程將會(huì)引入額外的設(shè)備間通信開(kāi)銷(xiāo)。

設(shè)計(jì)與實(shí)現(xiàn):

通過(guò)非貫穿劃分方案,可以顯著減少設(shè)備間獲取子圖邊界數(shù)據(jù)而產(chǎn)生的通信開(kāi)銷(xiāo)。圖2展示了在貫穿式和非貫穿劃分方案下的卷積計(jì)算過(guò)程。圖2(a)表示貫穿劃分的情況。其中,紅色和紫色方框分別表示卷積核在特征圖上滑動(dòng)的兩個(gè)不同位置。假設(shè)卷積核的尺寸3×3,步長(zhǎng)1。在滑動(dòng)窗口位置1的計(jì)算過(guò)程中,設(shè)備A需要從設(shè)備B獲取特征圖的第3行數(shù)據(jù)。同樣,在滑動(dòng)窗口位置2的計(jì)算過(guò)程中,設(shè)備B需要從設(shè)備C獲取特征圖的第5行數(shù)據(jù)。這種情況下,總共享數(shù)據(jù)量為24個(gè)像素單位。

image.png

2 傳統(tǒng)劃分與非貫穿圖像劃分方案

在圖2(b)中,應(yīng)用非貫穿劃分方案后,共享數(shù)據(jù)量減少到20個(gè)像素單位,從而降低設(shè)備間通信開(kāi)銷(xiāo)。

主要內(nèi)容:

image.png

3 多級(jí)圖像劃分流程

如圖3所示,步驟1從原始圖像中選擇高度或?qū)挾染S度進(jìn)行劃分,得到子圖1,并將其指派到設(shè)備A作為輸入。步驟2對(duì)剩余的圖像部分進(jìn)行劃分,得到子圖2,并將其指派到設(shè)備B。重復(fù)執(zhí)行此過(guò)程,直到整個(gè)圖像被劃分完成分配。該算法等效的實(shí)現(xiàn)了原始圖像貫穿劃分。每次生成的劃分方案被輸入到評(píng)估函數(shù)中,計(jì)算相應(yīng)的推理延遲。從第二次得到的劃分方案開(kāi)始,通過(guò)將當(dāng)前生成的方案與上一次獲得的方案進(jìn)行比較,并給出獎(jiǎng)勵(lì)或懲罰,調(diào)整劃分位置。在完成預(yù)定義輪次的迭代,選擇獎(jiǎng)勵(lì)值最高的方案作為最終的非貫穿式劃分方案。關(guān)于每輪獲取非貫穿劃分方案的詳細(xì)過(guò)程如算法1所示。

image.png

實(shí)驗(yàn)結(jié)果及分析:

本研究采用三塊NVIDIA顯卡模擬邊緣設(shè)備集群,構(gòu)建了NPTP方案的實(shí)驗(yàn)原型系統(tǒng)。實(shí)驗(yàn)選取不同類(lèi)型的VGG網(wǎng)絡(luò)架構(gòu)作為基準(zhǔn)模型,這些模型在特征提取階段分別包含不同數(shù)量的卷積層,可有效驗(yàn)證不同CNNNPTP下的表現(xiàn)。

4f711f61dbc2401b1fb6a40f8e5ca3f.png

4 NPTP 和 CoEdge 劃分方案在不同通信帶寬下的推理延遲

在設(shè)備帶寬范圍從0.1 MB/s到1.0 MB/s的場(chǎng)景下,這些網(wǎng)絡(luò)模型在CoEdge和 NPTP下的推理延遲如圖4所示。與CoEdge相比,NPTP在VGG11、VGG13、VGG16 和VGG19上分別實(shí)現(xiàn)了1.22-1.31倍、1.32-1.43倍、1.37-1.52倍和1.45-1.58倍的推理加速。NPTP在VGG19上的效果比其他三個(gè)模型更為顯著。這是因?yàn)閂GG19含有更多的卷積層,導(dǎo)致在推理過(guò)程中減少了更多圖像劃分邊界的數(shù)據(jù)共享開(kāi)銷(xiāo)。

05055286de5aa5c02507adc662d5324.png

5 四種 VGG 網(wǎng)絡(luò)在 NPTP 和 CoEdge 劃分方案下的通信數(shù)據(jù)量

為了對(duì)推理階段節(jié)省的通信開(kāi)銷(xiāo)進(jìn)行定量分析,對(duì)每一層卷積算子執(zhí)行計(jì)算時(shí)設(shè)備間通信量進(jìn)行了研究。如圖5所示,與CoEdge相比,NPTP的通信量最多可減少1.32倍。在模型推理過(guò)程中,NPTP方案在每個(gè)卷積算子執(zhí)行計(jì)算時(shí)設(shè)備間的通信量始終低于CoEdge。兩種劃分方案的通信量變化趨勢(shì)大致相同。這是因?yàn)楫?dāng)輸入圖像的劃分方式確定后,每個(gè)子圖輸入相同的模型,并執(zhí)行相同的計(jì)算過(guò)程。

6ad52850ed08ded3e155f73b79d5ffc.png

6 NPTP和CoEdge 在不同尺寸圖像入時(shí)的推理延遲

由于NPTP方案主要應(yīng)用于大尺寸圖像推理的場(chǎng)景。因此,研究不同輸入圖像尺寸下NPTP對(duì)模型推理延遲的改進(jìn)效果是十分必要的。如圖6所示,NPTP在所有圖像尺寸下的推理延遲始終低于CoEdge,在VGG13和VGG16網(wǎng)絡(luò)上分別實(shí)現(xiàn)了1.44-1.68倍和1.47-1.64倍的推理加速。

結(jié)論:

本文提出了一種新穎的協(xié)作推理方案NPTP,通過(guò)非貫穿的劃分方式減少卷積運(yùn)算過(guò)程中圖像劃分邊界的數(shù)據(jù)共享開(kāi)銷(xiāo)進(jìn)而實(shí)現(xiàn)推理加速。該方案設(shè)計(jì)了啟發(fā)式算法MPA,通過(guò)對(duì)原始圖像進(jìn)行多級(jí)劃分并引入評(píng)估機(jī)制,獲得合理的劃分與指派方案。實(shí)驗(yàn)結(jié)果表明,CoEdge相比NPTP實(shí)現(xiàn)了1.44-1.68倍的推理加速。

作者簡(jiǎn)介:

徐朝農(nóng),中國(guó)石油大學(xué)(北京)人工智能學(xué)院教師,主要研究領(lǐng)域?yàn)檫吘壷悄堋⑶度胧较到y(tǒng)、無(wú)線(xiàn)網(wǎng)絡(luò)。