中文題目:面向卷積神經(jīng)網(wǎng)絡(luò)協(xié)同推理的交錯(cuò)式算子劃分
論文題目:Cooperative Inference with Interleaved Operator Partitioning for CNNs
錄用期刊/會(huì)議:International Conference on Intelligent Computing (ICIC) 2024 (CCF C)
原文鏈接:http://poster-openaccess.com/files/icic2024/2251
作者列表:
1)劉志邦 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程專(zhuān)業(yè) 博21
2)徐朝農(nóng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)系 教師
3)劉志卓 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 先進(jìn)科學(xué)與工程計(jì)算專(zhuān)業(yè) 博22
4)黃樂(lè)楷 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)技術(shù)專(zhuān)業(yè) 碩22
5)魏嘉辰 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè) 碩22
6)李 超 之江實(shí)驗(yàn)室
文章簡(jiǎn)介:
目前,智能物聯(lián)網(wǎng)(AIoT)已廣泛應(yīng)用于工業(yè)生產(chǎn)、自動(dòng)駕駛、智能家電等多個(gè)領(lǐng)域。隨著深度學(xué)習(xí)技術(shù)的興起,智能模型在執(zhí)行推理過(guò)程中對(duì)設(shè)備的計(jì)算和內(nèi)存需求正在急劇增加。一方面,物聯(lián)網(wǎng)設(shè)備的內(nèi)存容量十分有限;另一方面,許多實(shí)際應(yīng)用場(chǎng)景具有嚴(yán)格的實(shí)時(shí)響應(yīng)需求。例如閥門(mén)泄漏的檢測(cè),需要毫秒級(jí)的響應(yīng)時(shí)間,否則將會(huì)導(dǎo)致嚴(yán)重的安全隱患。協(xié)同推理是解決這一問(wèn)題的重要方法?,F(xiàn)有的協(xié)同推理方法通常將算子的輸出通道或特征圖的高和寬作為劃分維度。由于算子的激活值分布在多個(gè)設(shè)備上,需要在傳遞給后繼算子之前進(jìn)行拼接操作,這將會(huì)引入額外的通信開(kāi)銷(xiāo),增加推理延遲。針對(duì)這一問(wèn)題,本文提出了一種新穎的AIoT協(xié)同推理方案——交錯(cuò)式算子劃分(IOP)以減少智能模型的推理延遲。
本文的主要內(nèi)容如下:
(1)提出了IOP,一種適用于CNN的協(xié)同推理加速方法,通過(guò)減少推理過(guò)程中所需的通信次數(shù)來(lái)降低推理延遲。
(2)基于IOP方案,對(duì)模型最小化推理延遲問(wèn)題進(jìn)行了建模。
(3)提出了一種啟發(fā)式劃分算法,該算法在所有包含兩個(gè)算子的分段中應(yīng)用IOP,以最小化協(xié)同推理延遲。
(4)使用多個(gè)CNN模型評(píng)估了IOP策略,表現(xiàn)出了優(yōu)越的性能。
摘要:
分布式協(xié)同推理是解決在資源受限的智能物聯(lián)網(wǎng)(AIoT)設(shè)備上部署深度學(xué)習(xí)模型的重要方法?,F(xiàn)有的協(xié)同推理方法通常將算子的輸出通道或特征圖的高和寬作為劃分維度。由于算子的輸出激活分布在不同設(shè)備上,因此在傳遞給后繼算子之前需要進(jìn)行拼接,這將引入額外的通信開(kāi)銷(xiāo),增加智能模型的推理延遲。針對(duì)這一問(wèn)題,本文提出了一種適用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的交錯(cuò)式算子劃分(IOP)策略。該策略通過(guò)基于輸出通道維度對(duì)前級(jí)算子進(jìn)行劃分,并基于輸入通道維度對(duì)其后繼算子進(jìn)行劃分,避免了算子輸出激活的拼接過(guò)程,從而減少了設(shè)備間建立通信連接的次數(shù),降低了協(xié)同推理的延遲。此外,我們提出了一種模型劃分算法,用于最小化協(xié)同推理時(shí)間,該算法通過(guò)基于推理延遲收益的貪婪算法來(lái)選擇算子進(jìn)行配對(duì)并應(yīng)用IOP方案。實(shí)驗(yàn)結(jié)果表明,與CoEdge劃分方法相比,IOP策略對(duì)LeNet,AlexNet和VGG11三個(gè)經(jīng)典的圖像分類(lèi)模型實(shí)現(xiàn)了6.39%至16.83%的推理加速,并減少了21.22%至49.98%的設(shè)備峰值內(nèi)存占用。
設(shè)計(jì)與實(shí)現(xiàn):
我們假設(shè)所有設(shè)備的通信帶寬和計(jì)算能力相對(duì)穩(wěn)定。為了確保問(wèn)題的準(zhǔn)確表述,定義了以下必要的概念和符號(hào):
表示算子在推理過(guò)程中的執(zhí)行順序。
表示可用設(shè)備的集合。
用于描述可用計(jì)算設(shè)備
的信息,其中
表示設(shè)備的計(jì)算能力,
表示設(shè)備的存儲(chǔ)能力,
表示設(shè)備間的通信帶寬。
用于表示可劃分維度,其中
,
,
,表示算子
所選擇的劃分維度,
表示特征圖的高維度,
和
分別表示特征圖的輸入通道和輸出通道維度。
用于描述算子的屬性。對(duì)于卷積算子,
表示輸入通道數(shù)量,
表示輸出通道數(shù)量。
表示卷積核的寬,
表示卷積核的高,
表示步長(zhǎng),
表示填充的大小。全連接算子作為一種特殊的卷積算子,
表示輸入維度大小,
表示輸出維度大小。
表示算子被劃分成多個(gè)部分,其中
部分被分配到設(shè)備
。
表示設(shè)備
上算子
的輸入通道數(shù)量。
表示設(shè)備
上算子
的輸出通道數(shù)量。
和
分別表示設(shè)備
上算子
的權(quán)重和輸出激活的內(nèi)存占用大小。
關(guān)于算子的劃分維度和大小進(jìn)行以下約束:
![]()
(1)
公式(1)表示部署在每個(gè)設(shè)備上的算子必須滿(mǎn)足推理過(guò)程中的峰值內(nèi)存占用小于設(shè)備容量。
(2)
公式(2)表示模型中的每個(gè)算子只能從H、IC和OC中選擇一個(gè)劃分維度。
![]()
(3)
![]()
(4)
![]()
(5)
公式(3)、(4)和(5)規(guī)定,在模型劃分后,各部分算子在H、IC和OC維度的大小之和必須等于原算子在相應(yīng)維度上的大小。
,
和
的取值為0或1,分別代表是否選擇算子的H、IC和OC維度進(jìn)行劃分。
![]()
(6)
![]()
(1), (2), (3), (4), (5)
模型的推理時(shí)間由兩部分組成:計(jì)算延遲和通信延遲。其中,
和
分別表示算子
在設(shè)備
上的計(jì)算延遲和通信延遲。
![]()
(7)
![]()
(8)
其中,
和
分別表示在設(shè)備
上執(zhí)行算子
所需要的計(jì)算量和通信量,這取決于所使用的算子劃分方法;而
和
的值由設(shè)備自身的屬性決定。
為了找到最優(yōu)劃分方案以最小化協(xié)同推理延遲,設(shè)計(jì)了一種啟發(fā)式算子配對(duì)算法。該算法從第一個(gè)算子開(kāi)始,逐層搜索采用交錯(cuò)式劃分方案的算子對(duì)。具體來(lái)說(shuō),對(duì)于算子
及其后續(xù)算子
,比較使用IOP和CoEdge劃分方法的推理時(shí)間。如果IOP方案實(shí)現(xiàn)了更短的推理時(shí)間,則將這兩個(gè)算子配對(duì)形成一個(gè)新分段;否則,新分段僅包含算子
。

實(shí)驗(yàn)結(jié)果及分析:
我們?cè)谌N典型的CNN模型中應(yīng)用了IOP方案,分別為L(zhǎng)eNet、AlexNet和VGG11。


與OC方案相比,IOP在執(zhí)行LeNet、AlexNet和VGG11模型推理時(shí)分別節(jié)省了31.53%、21.06%和12.82%的延遲。相較于CoEdge,IOP分別節(jié)省了12.05%、16.83%和6.39%的延遲。此外,與CoEdge方案相比,IOP在LeNet、AlexNet和VGG11執(zhí)行推理過(guò)程中的峰值內(nèi)存占用分別減少了49.98%、21.22%和40.79%。

我們針對(duì)VGG11、VGG13、VGG16和VGG19,測(cè)試了設(shè)備間通信連接建立時(shí)間從1毫秒到8毫秒情況下的推理延遲。對(duì)于VGG11網(wǎng)絡(luò),使用IOP的推理延遲減少了14.51%至26.74%。而對(duì)于VGG13、VGG16和VGG19,IOP方案的推理延遲分別減少了12.99%至24.99%、3.34%至31.01%和15.01%至34.87%。
結(jié)論:
本文介紹了IOP,一種適用于CNN協(xié)同推理的低延遲模型劃分策略。通過(guò)在相鄰算子間采用IOP,減少了設(shè)備間多次建立通信連接所帶來(lái)的開(kāi)銷(xiāo),從而降低了模型推理延遲。我們將IOP最佳劃分策略的搜索方案描述為組合優(yōu)化問(wèn)題。為有效解決該問(wèn)題,我們?cè)O(shè)計(jì)了一種算子配對(duì)算法,以找到最優(yōu)的模型劃分策略。實(shí)驗(yàn)結(jié)果表明,對(duì)于LeNet、AlexNet和VGG11這三種廣泛應(yīng)用于圖像分類(lèi)的CNN模型,IOP相比最先進(jìn)的CoEdge方案,實(shí)現(xiàn)了6.39%至16.83%的推理加速,并節(jié)省了21.22%至49.98%的峰值內(nèi)存占用。
作者簡(jiǎn)介:
徐朝農(nóng),中國(guó)石油大學(xué)(北京)人工智能學(xué)院教師,主要研究領(lǐng)域?yàn)檫吘壷悄堋⑶度胧较到y(tǒng)、無(wú)線(xiàn)網(wǎng)絡(luò)。