本技術(shù)涉及人工智能識別領(lǐng)域,尤其涉及一種基于全景視頻的人工智能識別方法及相關(guān)裝置。
背景技術(shù):
1、在人工智能識別領(lǐng)域,傳統(tǒng)的視頻監(jiān)控系統(tǒng)主要依賴于單路單視角的視頻幀進行識別。這種方式在處理大范圍監(jiān)控場景時存在明顯局限,因為它只能識別攝像頭直接捕捉到的有限視角內(nèi)的信息。為了實現(xiàn)全方位監(jiān)控,傳統(tǒng)方法需要部署多個單獨的攝像頭,并對每個攝像頭的視頻流分別進行識別和處理,這不僅增加了硬件成本,還提升了計算復(fù)雜度和數(shù)據(jù)處理延遲。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供了一種基于全景視頻的人工智能識別方法及相關(guān)裝置,用于解決相關(guān)技術(shù)在大范圍監(jiān)控場景中進行全方位監(jiān)控的監(jiān)控效率低的問題。
2、本技術(shù)第一方面提供了一種基于全景視頻的人工智能識別方法,所述基于全景視頻的人工智能識別方法包括:
3、將全景相機拍攝的球面全視角圖像進行等距柱狀投影映射,生成二維展開圖像;
4、基于預(yù)設(shè)比例對所述二維展開圖像的強干擾區(qū)域進行圖像裁剪,生成有效區(qū)域圖像;
5、將所述有效區(qū)域圖像在水平方向上基于預(yù)設(shè)數(shù)量進行的多段等分生成的所述預(yù)設(shè)數(shù)量的圖像子塊輸入至目標檢測模型進行目標識別,生成初步識別結(jié)果;
6、通過對各所述圖像子塊對應(yīng)的初步識別結(jié)果進行融合,將所述對應(yīng)的初步識別結(jié)果還原至所述二維展開圖像的統(tǒng)一坐標系中,生成多目標融合結(jié)果;
7、對所述多目標融合結(jié)果中檢測目標的局部圖像進行二次裁剪,并對二次裁剪后的檢測目標圖像進行特征識別,識別所述檢測目標的行為事件。
8、可選的,在本技術(shù)第一方面的第一種實現(xiàn)方式中,所述將全景相機拍攝的球面全視角圖像進行等距柱狀投影映射,生成二維展開圖像的步驟,包括:
9、獲取全景相機采集的原始球面圖像幀,并基于球極坐標系構(gòu)建坐標映射矩陣;
10、根據(jù)所述坐標映射矩陣,將所述球面圖像幀中像素點的球極坐標映射至等距柱狀投影平面上的直角坐標系,生成展開圖像幀數(shù)據(jù);
11、通過對所述展開圖像幀數(shù)據(jù)中的像素密度分布進行分段線性均衡調(diào)整,生成像素分布均衡的標準化圖像幀;
12、將所述標準化圖像幀基于預(yù)設(shè)分辨率參數(shù)進行分辨率重采樣,生成二維展開圖像。
13、可選的,在本技術(shù)第一方面的第二種實現(xiàn)方式中,所述強干擾區(qū)域包括所述球面圖像幀的南北極區(qū)域,所述基于預(yù)設(shè)比例對所述二維展開圖像的強干擾區(qū)域進行圖像裁剪,生成有效區(qū)域圖像的步驟,包括:
14、根據(jù)所述二維展開圖像的像素尺寸,確定所述球面圖像幀的南北極區(qū)域分別對應(yīng)的預(yù)設(shè)比例區(qū)域,生成裁剪區(qū)域邊界索引參數(shù)集合;
15、基于所述裁剪區(qū)域邊界索引參數(shù)集合對所述二維展開圖像進行像素裁剪,生成中部圖像帶;
16、通過對所述中部圖像帶的圖像梯度分布進行方向性卷積分析,提取圖像內(nèi)容的主響應(yīng)區(qū)域邊界,并根據(jù)預(yù)設(shè)響應(yīng)閾值生成內(nèi)容有效性掩膜圖;
17、根據(jù)所述內(nèi)容有效性掩膜圖對中部圖像帶進行掩膜遮罩裁剪,生成覆蓋主響應(yīng)區(qū)域的有效區(qū)域圖像。
18、可選的,在本技術(shù)第一方面的第三種實現(xiàn)方式中,所述將所述有效區(qū)域圖像在水平方向上基于預(yù)設(shè)數(shù)量進行的多段等分生成的所述預(yù)設(shè)數(shù)量的圖像子塊輸入至目標檢測模型進行目標識別,生成初步識別結(jié)果的步驟,包括:
19、根據(jù)所述有效區(qū)域圖像的寬度維度與預(yù)設(shè)劃分數(shù)量,構(gòu)建圖像子塊分割模板,并基于所述圖像子塊分割模板對所述有效區(qū)域圖像進行水平方向的圖像等寬裁切,生成圖像子塊集合;
20、對所述圖像子塊集合中的各個圖像子塊添加對應(yīng)的圖像塊原始位置信息索引;
21、將具有所述位置信息索引的圖像子塊輸入至目標檢測模型中,通過所述目標檢測模型的特征金字塔網(wǎng)絡(luò)提取多層語義特征并結(jié)合p2特征層輸出各個圖像子塊的邊界框檢測結(jié)果;
22、根據(jù)所述各個圖像子塊的邊界框檢測結(jié)果與對應(yīng)的原始位置信息索引,生成初步識別結(jié)果。
23、可選的,在本技術(shù)第一方面的第四種實現(xiàn)方式中,所述通過對各所述圖像子塊對應(yīng)的初步識別結(jié)果進行融合,將所述對應(yīng)的初步識別結(jié)果還原至所述二維展開圖像的統(tǒng)一坐標系中,生成多目標融合結(jié)果的步驟,包括:
24、根據(jù)各所述圖像子塊在所述有效區(qū)域圖像中的水平起始坐標與圖像子塊寬度參數(shù),構(gòu)建局部識別結(jié)果向所述二維展開圖像全局坐標系映射的偏移量索引表;
25、基于所述偏移量索引表對所述初步識別結(jié)果的目標邊界框坐標進行坐標偏移處理,生成統(tǒng)一坐標系下的目標位置數(shù)據(jù)集;
26、通過對所述目標位置數(shù)據(jù)集中各個目標邊界框進行重疊區(qū)域檢測,對重疊度大于預(yù)設(shè)閾值的多個目標邊界框進行目標合并,生成目標合并列表;
27、通過對所述目標合并列表的邊界框進行結(jié)構(gòu)化對齊處理,生成結(jié)構(gòu)一致的多目標融合結(jié)果。
28、可選的,在本技術(shù)第一方面的第五種實現(xiàn)方式中,所述對所述多目標融合結(jié)果中檢測目標的局部圖像進行二次裁剪,并對二次裁剪后的檢測目標圖像進行特征識別,識別所述檢測目標的行為事件的步驟,包括:
29、根據(jù)所述多目標融合結(jié)果中檢測目標的位置信息,在所述二維展開圖像中提取對應(yīng)區(qū)域圖像片段,生成對應(yīng)的檢測目標圖像;
30、對所述檢測目標圖像進行尺寸歸整與像素通道格式處理,生成目標圖像輸入數(shù)據(jù);
31、將所述目標圖像輸入數(shù)據(jù)輸入至行為特征識別神經(jīng)網(wǎng)絡(luò)中,生成與所述檢測目標圖像對應(yīng)的行為事件標簽;
32、根據(jù)所述行為事件標簽以及對應(yīng)的目標標識與坐標標簽,確定所述檢測目標對應(yīng)的行為事件。
33、可選的,在本技術(shù)第一方面的第六種實現(xiàn)方式中,所述方法還包括:
34、根據(jù)所述檢測目標的空間坐標與時間戳信息,構(gòu)建跨幀目標跟蹤關(guān)聯(lián)索引,通過對連續(xù)圖像幀中的所述檢測目標的目標屬性信息進行匹配處理,生成目標連續(xù)跟蹤軌跡;
35、對所述目標連續(xù)跟蹤軌跡基于時間軸順序進行軌跡段分割與狀態(tài)標注,生成軌跡事件描述;
36、根據(jù)預(yù)設(shè)報警規(guī)則,基于所述軌跡事件描述中對應(yīng)的連續(xù)幀行為標簽與空間區(qū)域條件,對符合報警條件的軌跡段進行報警狀態(tài)判斷,生成報警事件判定結(jié)果。
37、本技術(shù)第二方面提供了一種基于全景視頻的人工智能識別裝置,所述基于全景視頻的人工智能識別裝置用于實現(xiàn)基于全景視頻的人工智能識別方法,所述基于全景視頻的人工智能識別裝置包括:
38、映射模塊,用于將全景相機拍攝的球面全視角圖像進行等距柱狀投影映射,生成二維展開圖像;
39、裁剪模塊,用于基于預(yù)設(shè)比例對所述二維展開圖像的強干擾區(qū)域進行圖像裁剪,生成有效區(qū)域圖像;
40、第一識別模塊,用于將所述有效區(qū)域圖像在水平方向上基于預(yù)設(shè)數(shù)量進行的多段等分生成的所述預(yù)設(shè)數(shù)量的圖像子塊輸入至目標檢測模型進行目標識別,生成初步識別結(jié)果;
41、融合模塊,用于通過對各所述圖像子塊對應(yīng)的初步識別結(jié)果進行融合,將所述對應(yīng)的初步識別結(jié)果還原至所述二維展開圖像的統(tǒng)一坐標系中,生成多目標融合結(jié)果;
42、第二識別模塊,用于對所述多目標融合結(jié)果中檢測目標的局部圖像進行二次裁剪,并對二次裁剪后的檢測目標圖像進行特征識別,識別所述檢測目標的行為事件。
43、本技術(shù)實施例第三方面提供了一種電子設(shè)備,包括存儲器及處理器,其中,所述處理器用于執(zhí)行存儲在所述存儲器上的計算機程序,所述處理器執(zhí)行所述計算機程序時,實現(xiàn)上述本技術(shù)實施例第一方面提供的基于全景視頻的人工智能識別方法中的各步驟。
44、本技術(shù)實施例第四方面提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,計算機程序被處理器執(zhí)行時,實現(xiàn)上述本技術(shù)實施例第一方面提供的基于全景視頻的人工智能識別方法中的各步驟。
45、綜上所述,根據(jù)本技術(shù)方案所提供的一種基于全景視頻的人工智能識別方法及相關(guān)裝置,將全景相機拍攝的球面全視角圖像進行等距柱狀投影映射,生成二維展開圖像;基于預(yù)設(shè)比例對所述二維展開圖像的強干擾區(qū)域進行圖像裁剪,生成有效區(qū)域圖像;將所述有效區(qū)域圖像在水平方向上基于預(yù)設(shè)數(shù)量進行的多段等分生成的所述預(yù)設(shè)數(shù)量的圖像子塊輸入至目標檢測模型進行目標識別,生成初步識別結(jié)果;通過對各所述圖像子塊對應(yīng)的初步識別結(jié)果進行融合,將所述對應(yīng)的初步識別結(jié)果還原至所述二維展開圖像的統(tǒng)一坐標系中,生成多目標融合結(jié)果;對所述多目標融合結(jié)果中檢測目標的局部圖像進行二次裁剪,并對二次裁剪后的檢測目標圖像進行特征識別,識別所述檢測目標的行為事件。通過本技術(shù)方案的實施,將全景相機拍攝的球面圖像進行等距柱狀展開并結(jié)合圖像有效區(qū)域裁剪與子塊識別結(jié)果融合的機制,能夠在保證空間完整性的同時,有效協(xié)調(diào)局部識別信息并統(tǒng)一映射至全圖坐標系中,能有效提高大范圍監(jiān)控場景的監(jiān)控效率。