金沙集团中国有限公司招聘,988娱乐城怎么样,大发888网页游戏

學(xué)校主頁(yè)

您所在的位置：首頁(yè) - 科學(xué)研究 - 科研動(dòng)態(tài)

科研動(dòng)態(tài)

面向卷積神經(jīng)網(wǎng)絡(luò)協(xié)同推理的交錯(cuò)式算子劃分

日期：2024-08-20 | 訪(fǎng)問(wèn)量：

中文題目：面向卷積神經(jīng)網(wǎng)絡(luò)協(xié)同推理的交錯(cuò)式算子劃分

論文題目：Cooperative Inference with Interleaved Operator Partitioning for CNNs

錄用期刊/會(huì)議：International Conference on Intelligent Computing (ICIC) 2024 (CCF C)

原文鏈接：http://poster-openaccess.com/files/icic2024/2251

作者列表：

1）劉志邦中國(guó)石油大學(xué)（北京）人工智能學(xué)院控制科學(xué)與工程專(zhuān)業(yè) 博21

2）徐朝農(nóng) 中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)系教師

3）劉志卓中國(guó)石油大學(xué)（北京）人工智能學(xué)院先進(jìn)科學(xué)與工程計(jì)算專(zhuān)業(yè) 博22

4）黃樂(lè)楷中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)技術(shù)專(zhuān)業(yè) 碩22

5）魏嘉辰中國(guó)石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè) 碩22

6）李超之江實(shí)驗(yàn)室

文章簡(jiǎn)介:

目前，智能物聯(lián)網(wǎng)（AIoT）已廣泛應(yīng)用于工業(yè)生產(chǎn)、自動(dòng)駕駛、智能家電等多個(gè)領(lǐng)域。隨著深度學(xué)習(xí)技術(shù)的興起，智能模型在執(zhí)行推理過(guò)程中對(duì)設(shè)備的計(jì)算和內(nèi)存需求正在急劇增加。一方面，物聯(lián)網(wǎng)設(shè)備的內(nèi)存容量十分有限；另一方面，許多實(shí)際應(yīng)用場(chǎng)景具有嚴(yán)格的實(shí)時(shí)響應(yīng)需求。例如閥門(mén)泄漏的檢測(cè)，需要毫秒級(jí)的響應(yīng)時(shí)間，否則將會(huì)導(dǎo)致嚴(yán)重的安全隱患。協(xié)同推理是解決這一問(wèn)題的重要方法?，F(xiàn)有的協(xié)同推理方法通常將算子的輸出通道或特征圖的高和寬作為劃分維度。由于算子的激活值分布在多個(gè)設(shè)備上，需要在傳遞給后繼算子之前進(jìn)行拼接操作，這將會(huì)引入額外的通信開(kāi)銷(xiāo)，增加推理延遲。針對(duì)這一問(wèn)題，本文提出了一種新穎的AIoT協(xié)同推理方案——交錯(cuò)式算子劃分（IOP）以減少智能模型的推理延遲。

本文的主要內(nèi)容如下：

（1）提出了IOP，一種適用于CNN的協(xié)同推理加速方法，通過(guò)減少推理過(guò)程中所需的通信次數(shù)來(lái)降低推理延遲。

（2）基于IOP方案，對(duì)模型最小化推理延遲問(wèn)題進(jìn)行了建模。

（3）提出了一種啟發(fā)式劃分算法，該算法在所有包含兩個(gè)算子的分段中應(yīng)用IOP，以最小化協(xié)同推理延遲。

（4）使用多個(gè)CNN模型評(píng)估了IOP策略，表現(xiàn)出了優(yōu)越的性能。

摘要:

分布式協(xié)同推理是解決在資源受限的智能物聯(lián)網(wǎng)（AIoT）設(shè)備上部署深度學(xué)習(xí)模型的重要方法?，F(xiàn)有的協(xié)同推理方法通常將算子的輸出通道或特征圖的高和寬作為劃分維度。由于算子的輸出激活分布在不同設(shè)備上，因此在傳遞給后繼算子之前需要進(jìn)行拼接，這將引入額外的通信開(kāi)銷(xiāo)，增加智能模型的推理延遲。針對(duì)這一問(wèn)題，本文提出了一種適用于卷積神經(jīng)網(wǎng)絡(luò)（CNN）模型的交錯(cuò)式算子劃分（IOP）策略。該策略通過(guò)基于輸出通道維度對(duì)前級(jí)算子進(jìn)行劃分，并基于輸入通道維度對(duì)其后繼算子進(jìn)行劃分，避免了算子輸出激活的拼接過(guò)程，從而減少了設(shè)備間建立通信連接的次數(shù)，降低了協(xié)同推理的延遲。此外，我們提出了一種模型劃分算法，用于最小化協(xié)同推理時(shí)間，該算法通過(guò)基于推理延遲收益的貪婪算法來(lái)選擇算子進(jìn)行配對(duì)并應(yīng)用IOP方案。實(shí)驗(yàn)結(jié)果表明，與CoEdge劃分方法相比，IOP策略對(duì)LeNet，AlexNet和VGG11三個(gè)經(jīng)典的圖像分類(lèi)模型實(shí)現(xiàn)了6.39%至16.83%的推理加速，并減少了21.22%至49.98%的設(shè)備峰值內(nèi)存占用。

設(shè)計(jì)與實(shí)現(xiàn):

我們假設(shè)所有設(shè)備的通信帶寬和計(jì)算能力相對(duì)穩(wěn)定。為了確保問(wèn)題的準(zhǔn)確表述，定義了以下必要的概念和符號(hào)：
表示算子在推理過(guò)程中的執(zhí)行順序。表示可用設(shè)備的集合。

用于描述可用計(jì)算設(shè)備的信息，其中表示設(shè)備的計(jì)算能力，表示設(shè)備的存儲(chǔ)能力，表示設(shè)備間的通信帶寬。

用于表示可劃分維度，其中,,，表示算子所選擇的劃分維度，表示特征圖的高維度，和分別表示特征圖的輸入通道和輸出通道維度。

用于描述算子的屬性。對(duì)于卷積算子，表示輸入通道數(shù)量，表示輸出通道數(shù)量。表示卷積核的寬，表示卷積核的高，表示步長(zhǎng)，表示填充的大小。全連接算子作為一種特殊的卷積算子，表示輸入維度大小，表示輸出維度大小。

表示算子被劃分成多個(gè)部分，其中部分被分配到設(shè)備。表示設(shè)備上算子的輸入通道數(shù)量。表示設(shè)備上算子的輸出通道數(shù)量。和分別表示設(shè)備上算子的權(quán)重和輸出激活的內(nèi)存占用大小。

關(guān)于算子的劃分維度和大小進(jìn)行以下約束：

(1)

公式（1）表示部署在每個(gè)設(shè)備上的算子必須滿(mǎn)足推理過(guò)程中的峰值內(nèi)存占用小于設(shè)備容量。

(2)

公式（2）表示模型中的每個(gè)算子只能從H、IC和OC中選擇一個(gè)劃分維度。

(3)

(4)

(5)

公式（3）、（4）和（5）規(guī)定，在模型劃分后，各部分算子在H、IC和OC維度的大小之和必須等于原算子在相應(yīng)維度上的大小。,和的取值為0或1，分別代表是否選擇算子的H、IC和OC維度進(jìn)行劃分。

(6)

(1), (2), (3), (4), (5)

模型的推理時(shí)間由兩部分組成：計(jì)算延遲和通信延遲。其中，和分別表示算子在設(shè)備上的計(jì)算延遲和通信延遲。

(7)

(8)

其中，和分別表示在設(shè)備上執(zhí)行算子所需要的計(jì)算量和通信量，這取決于所使用的算子劃分方法；而和的值由設(shè)備自身的屬性決定。

為了找到最優(yōu)劃分方案以最小化協(xié)同推理延遲，設(shè)計(jì)了一種啟發(fā)式算子配對(duì)算法。該算法從第一個(gè)算子開(kāi)始，逐層搜索采用交錯(cuò)式劃分方案的算子對(duì)。具體來(lái)說(shuō)，對(duì)于算子及其后續(xù)算子，比較使用IOP和CoEdge劃分方法的推理時(shí)間。如果IOP方案實(shí)現(xiàn)了更短的推理時(shí)間，則將這兩個(gè)算子配對(duì)形成一個(gè)新分段；否則，新分段僅包含算子。

圖片.png

實(shí)驗(yàn)結(jié)果及分析:

我們?cè)谌N典型的CNN模型中應(yīng)用了IOP方案，分別為L(zhǎng)eNet、AlexNet和VGG11。

與OC方案相比，IOP在執(zhí)行LeNet、AlexNet和VGG11模型推理時(shí)分別節(jié)省了31.53%、21.06%和12.82%的延遲。相較于CoEdge，IOP分別節(jié)省了12.05%、16.83%和6.39%的延遲。此外，與CoEdge方案相比，IOP在LeNet、AlexNet和VGG11執(zhí)行推理過(guò)程中的峰值內(nèi)存占用分別減少了49.98%、21.22%和40.79%。

我們針對(duì)VGG11、VGG13、VGG16和VGG19，測(cè)試了設(shè)備間通信連接建立時(shí)間從1毫秒到8毫秒情況下的推理延遲。對(duì)于VGG11網(wǎng)絡(luò)，使用IOP的推理延遲減少了14.51%至26.74%。而對(duì)于VGG13、VGG16和VGG19，IOP方案的推理延遲分別減少了12.99%至24.99%、3.34%至31.01%和15.01%至34.87%。

結(jié)論:

本文介紹了IOP，一種適用于CNN協(xié)同推理的低延遲模型劃分策略。通過(guò)在相鄰算子間采用IOP，減少了設(shè)備間多次建立通信連接所帶來(lái)的開(kāi)銷(xiāo)，從而降低了模型推理延遲。我們將IOP最佳劃分策略的搜索方案描述為組合優(yōu)化問(wèn)題。為有效解決該問(wèn)題，我們?cè)O(shè)計(jì)了一種算子配對(duì)算法，以找到最優(yōu)的模型劃分策略。實(shí)驗(yàn)結(jié)果表明，對(duì)于LeNet、AlexNet和VGG11這三種廣泛應(yīng)用于圖像分類(lèi)的CNN模型，IOP相比最先進(jìn)的CoEdge方案，實(shí)現(xiàn)了6.39%至16.83%的推理加速，并節(jié)省了21.22%至49.98%的峰值內(nèi)存占用。

作者簡(jiǎn)介:

徐朝農(nóng)，中國(guó)石油大學(xué)（北京）人工智能學(xué)院教師，主要研究領(lǐng)域?yàn)檫吘壷悄堋⑶度胧较到y(tǒng)、無(wú)線(xiàn)網(wǎng)絡(luò)。

金沙娱乐场官方网-澳门金沙会官网-金沙集团股价实情信息最新

科研動(dòng)態(tài)

面向卷積神經(jīng)網(wǎng)絡(luò)協(xié)同推理的交錯(cuò)式算子劃分