金沙集团的上市代码是什么号,金沙集团创办人是谁啊,金沙集团最新投资信息公布网

學(xué)校主頁(yè)

您所在的位置：首頁(yè) - 科學(xué)研究 - 科研動(dòng)態(tài)

科研動(dòng)態(tài)

基于非貫穿式張量劃分的協(xié)同推理加速

日期：2025-03-04 | 訪(fǎng)問(wèn)量：

中文題目：基于非貫穿式張量劃分的協(xié)同推理加速

論文題目：Collaborative Inference Acceleration with Non-Penetrative Tensor Partitioning

錄用期刊/會(huì)議：2025 IEEE International Conference on Acoustics, Speech, and Signal Processing（CCF B）

原文鏈接：https://arxiv.org/abs/2501.04489

錄用時(shí)間：2024年12月21日

作者列表：

1）劉志邦中國(guó)石油大學(xué)（北京）人工智能學(xué)院控制科學(xué)與工程專(zhuān)業(yè) 博21

2）徐朝農(nóng) 中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)系教師

3）呂振杰中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè) 碩 22

4）劉志卓中國(guó)石油大學(xué)（北京）人工智能學(xué)院先進(jìn)科學(xué)與工程計(jì)算專(zhuān)業(yè) 博 22

5）趙蘇豫中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)技術(shù)專(zhuān)業(yè) 碩 22

摘要:

在邊緣設(shè)備上進(jìn)行大尺寸圖像推理通常受到計(jì)算資源的限制。目前，基于圖像劃分的協(xié)同推理是解決這一問(wèn)題的有效方案，即將大尺寸圖像劃分為多張子圖，并將每個(gè)子圖分配給不同的邊緣設(shè)備執(zhí)行推理。然而，各子圖劃分邊界的數(shù)據(jù)共享會(huì)帶來(lái)一定的通信開(kāi)銷(xiāo)，導(dǎo)致額外的推理時(shí)延。為了解決這一問(wèn)題，本文提出了一種非貫穿式張量劃分（Non-Penetrative Tensor Partitioning，NPTP）方案，通過(guò)最小化子圖劃分邊界的通信數(shù)據(jù)量來(lái)降低通信時(shí)延，進(jìn)而減少整體推理延遲。我們?cè)谒姆N廣泛使用的卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）模型上對(duì)NPTP進(jìn)行了評(píng)估。實(shí)驗(yàn)結(jié)果表明，與協(xié)同推理算法CoEdge相比，NPTP實(shí)現(xiàn)了1.44至1.68倍的推理加速。

背景與動(dòng)機(jī):

隨著邊緣計(jì)算和深度學(xué)習(xí)技術(shù)的普及，CNN在醫(yī)療、工業(yè)、交通等領(lǐng)域得到了廣泛應(yīng)用。但其在部署和推理過(guò)程中，面臨著推理的實(shí)時(shí)性需求以及設(shè)備計(jì)算與存儲(chǔ)資源受限等挑戰(zhàn)。針對(duì)以上問(wèn)題，現(xiàn)有解決方案通常采用多設(shè)備協(xié)同推理方式。以圖1中的圖像分類(lèi)應(yīng)用為例，模型的特征提取部分被復(fù)制并分別部署在設(shè)備 A、B 和 C 上。輸入圖像被貫穿式的劃分為三個(gè)部分，并分別輸入到這些設(shè)備中以生成三個(gè)特征圖。在分類(lèi)階段，這三個(gè)特征圖將在某個(gè)設(shè)備（如圖中設(shè)備 B）上進(jìn)行聚合，以完成剩余的分類(lèi)任務(wù)。

圖1 基于圖像劃分的協(xié)同推理方案

然而，由于CNN模型特征提取層中的卷積操作是通過(guò)滑動(dòng)窗口方式執(zhí)行計(jì)算的，如圖1所示，對(duì)原始圖像進(jìn)行貫穿式劃分會(huì)導(dǎo)致某些設(shè)備在卷積過(guò)程中缺少完整的輸入數(shù)據(jù)。因此，為保證推理結(jié)果的準(zhǔn)確性，這些設(shè)備必須從相鄰設(shè)備獲取缺失的邊界圖像數(shù)據(jù)（也稱(chēng)為共享數(shù)據(jù)），這一過(guò)程將會(huì)引入額外的設(shè)備間通信開(kāi)銷(xiāo)。

設(shè)計(jì)與實(shí)現(xiàn):

通過(guò)非貫穿式劃分方案，可以顯著減少設(shè)備間獲取子圖邊界數(shù)據(jù)而產(chǎn)生的通信開(kāi)銷(xiāo)。圖2展示了在貫穿式和非貫穿式劃分方案下的卷積計(jì)算過(guò)程。圖2(a)表示貫穿式劃分的情況。其中，紅色和紫色方框分別表示卷積核在特征圖上滑動(dòng)到的兩個(gè)不同位置。假設(shè)卷積核的尺寸為3×3，步長(zhǎng)為1。在滑動(dòng)窗口位置1的計(jì)算過(guò)程中，設(shè)備A需要從設(shè)備B獲取特征圖的第3行數(shù)據(jù)。同樣，在滑動(dòng)窗口位置2的計(jì)算過(guò)程中，設(shè)備B需要從設(shè)備C獲取特征圖的第5行數(shù)據(jù)。這種情況下，總共享數(shù)據(jù)量為24個(gè)像素單位。

圖2 傳統(tǒng)劃分與非貫穿圖像劃分方案

在圖2(b)中，應(yīng)用非貫穿式劃分方案后，共享數(shù)據(jù)量減少到20個(gè)像素單位，從而降低了設(shè)備間通信開(kāi)銷(xiāo)。

主要內(nèi)容:

圖3 多級(jí)圖像劃分流程

如圖3所示，步驟1從原始圖像中選擇高度或?qū)挾染S度進(jìn)行劃分，得到子圖1，并將其指派到設(shè)備A作為輸入。步驟2對(duì)剩余的圖像部分進(jìn)行劃分，得到子圖2，并將其指派到設(shè)備B。重復(fù)執(zhí)行此過(guò)程，直到整個(gè)圖像被劃分并完成分配。該算法等效的實(shí)現(xiàn)了原始圖像的非貫穿式劃分。每次生成的劃分方案被輸入到評(píng)估函數(shù)中，計(jì)算相應(yīng)的推理延遲。從第二次得到的劃分方案開(kāi)始，通過(guò)將當(dāng)前生成的方案與上一次獲得的方案進(jìn)行比較，并給出獎(jiǎng)勵(lì)或懲罰，調(diào)整劃分位置。在完成預(yù)定義輪次的迭代后，選擇獎(jiǎng)勵(lì)值最高的方案作為最終的非貫穿式劃分方案。關(guān)于每輪獲取非貫穿劃分方案的詳細(xì)過(guò)程如算法1所示。

實(shí)驗(yàn)結(jié)果及分析:

本研究采用三塊NVIDIA顯卡模擬邊緣設(shè)備集群，構(gòu)建了NPTP方案的實(shí)驗(yàn)原型系統(tǒng)。實(shí)驗(yàn)選取不同類(lèi)型的VGG網(wǎng)絡(luò)架構(gòu)作為基準(zhǔn)模型，這些模型在特征提取階段分別包含不同數(shù)量的卷積層，可有效驗(yàn)證不同CNN在NPTP下的表現(xiàn)。

圖4 NPTP 和 CoEdge 劃分方案在不同通信帶寬下的推理延遲

在設(shè)備帶寬范圍從0.1 MB/s到1.0 MB/s的場(chǎng)景下，這些網(wǎng)絡(luò)模型在CoEdge和 NPTP下的推理延遲如圖4所示。與CoEdge相比，NPTP在VGG11、VGG13、VGG16 和VGG19上分別實(shí)現(xiàn)了1.22-1.31倍、1.32-1.43倍、1.37-1.52倍和1.45-1.58倍的推理加速。NPTP在VGG19上的效果比其他三個(gè)模型更為顯著。這是因?yàn)閂GG19含有更多的卷積層，導(dǎo)致在推理過(guò)程中減少了更多圖像劃分邊界的數(shù)據(jù)共享開(kāi)銷(xiāo)。

圖5 四種 VGG 網(wǎng)絡(luò)在 NPTP 和 CoEdge 劃分方案下的通信數(shù)據(jù)量

為了對(duì)推理階段節(jié)省的通信開(kāi)銷(xiāo)進(jìn)行定量分析，對(duì)每一層卷積算子執(zhí)行計(jì)算時(shí)設(shè)備間的通信量進(jìn)行了研究。如圖5所示，與CoEdge相比，NPTP的通信量最多可減少1.32倍。在模型推理過(guò)程中，NPTP方案在每個(gè)卷積算子執(zhí)行計(jì)算時(shí)設(shè)備間的通信量始終低于CoEdge。兩種劃分方案的通信量變化趨勢(shì)大致相同。這是因?yàn)楫?dāng)輸入圖像的劃分方式確定后，每個(gè)子圖輸入相同的模型，并執(zhí)行相同的計(jì)算過(guò)程。

圖6 NPTP和CoEdge 在不同尺寸圖像輸入時(shí)的推理延遲

由于NPTP方案主要應(yīng)用于大尺寸圖像推理的場(chǎng)景。因此，研究不同輸入圖像尺寸下NPTP對(duì)模型推理延遲的改進(jìn)效果是十分必要的。如圖6所示，NPTP在所有圖像尺寸下的推理延遲始終低于CoEdge，在VGG13和VGG16網(wǎng)絡(luò)上分別實(shí)現(xiàn)了1.44-1.68倍和1.47-1.64倍的推理加速。

結(jié)論:

本文提出了一種新穎的協(xié)作推理方案NPTP，通過(guò)非貫穿的劃分方式減少卷積運(yùn)算過(guò)程中圖像劃分邊界的數(shù)據(jù)共享開(kāi)銷(xiāo)進(jìn)而實(shí)現(xiàn)推理加速。該方案設(shè)計(jì)了啟發(fā)式算法MPA，通過(guò)對(duì)原始圖像進(jìn)行多級(jí)劃分并引入評(píng)估機(jī)制，獲得合理的劃分與指派方案。實(shí)驗(yàn)結(jié)果表明，與CoEdge相比NPTP實(shí)現(xiàn)了1.44-1.68倍的推理加速。

作者簡(jiǎn)介:

徐朝農(nóng)，中國(guó)石油大學(xué)（北京）人工智能學(xué)院教師，主要研究領(lǐng)域?yàn)檫吘壷悄堋⑶度胧较到y(tǒng)、無(wú)線(xiàn)網(wǎng)絡(luò)。

金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

基于非貫穿式張量劃分的協(xié)同推理加速