本發(fā)明涉及金融、醫(yī)療健康及人工智能,尤其涉及一種視頻幀提取方法、裝置、設備及介質。
背景技術:
1、視頻關鍵幀提取是視頻分析與壓縮的核心技術,其目標是從視頻序列中選取最具代表性的幀,以降低存儲成本并保留關鍵信息。
2、視頻幀提取在各個領域中都具有重大意義。例如:在金融領域,通過提取關鍵幀可以在風險識別任務中快速定位視頻中的行為異常瞬間;在醫(yī)療健康領域,通過提取關鍵幀可以在病例探討時快速定位視頻中的關鍵節(jié)點(如手術關鍵節(jié)點)。
3、現(xiàn)有技術中,主要依賴手工設計的特征(如光流、顏色直方圖)或監(jiān)督學習進行關鍵視頻幀提取,但前者難以適應復雜場景,后者需要大量標注數(shù)據(jù)。現(xiàn)有技術在噪聲環(huán)境下的魯棒性差,且難以適用于大規(guī)模視頻數(shù)據(jù)的自動處理和分析。
技術實現(xiàn)思路
1、鑒于以上內(nèi)容,有必要提供一種視頻幀提取方法、裝置、設備及介質,旨在解決視頻幀提取方法魯棒性差,且難以適用于大規(guī)模視頻數(shù)據(jù)的自動處理和分析的問題。
2、一種視頻幀提取方法,所述視頻幀提取方法包括:
3、響應于基于初始視頻數(shù)據(jù)的視頻幀提取指令,按照配置長度將所述初始視頻數(shù)據(jù)分割為多個視頻片段;
4、將所述多個視頻片段輸入至基于不確定性加權對比學習框架訓練的貝葉斯3d卷積特征提取器,得到帶有不確定性估計的幀特征;
5、利用時序一致性感知的關鍵幀選擇器根據(jù)所述幀特征從所述多個視頻片段中提取目標視頻幀。
6、一種視頻幀提取裝置,所述視頻幀提取裝置包括:
7、分割單元,用于響應于基于初始視頻數(shù)據(jù)的視頻幀提取指令,按照配置長度將所述初始視頻數(shù)據(jù)分割為多個視頻片段;
8、輸入單元,用于將所述多個視頻片段輸入至基于不確定性加權對比學習框架訓練的貝葉斯3d卷積特征提取器,得到帶有不確定性估計的幀特征;
9、提取單元,用于利用時序一致性感知的關鍵幀選擇器根據(jù)所述幀特征從所述多個視頻片段中提取目標視頻幀。
10、一種計算機設備,所述計算機設備包括:
11、存儲器,存儲至少一個指令;及
12、處理器,執(zhí)行所述存儲器中存儲的指令以實現(xiàn)所述視頻幀提取方法。
13、一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有至少一個指令,所述至少一個指令被計算機設備中的處理器執(zhí)行以實現(xiàn)所述視頻幀提取方法。
14、由以上技術方案可以看出,本發(fā)明能夠按照配置長度將初始視頻數(shù)據(jù)分割為多個視頻片段,從而適配網(wǎng)絡輸入維度,并降低大量數(shù)據(jù)同時處理的耗時及資源占用;將多個視頻片段輸入至基于不確定性加權對比學習框架訓練的貝葉斯3d卷積特征提取器得到帶有不確定性估計的幀特征,實現(xiàn)了雙重不確定性量化,提供了對噪聲數(shù)據(jù)的識別能力,同時,基于不確定性加權對比學習框架進行訓練,能夠利用不確定性信息動態(tài)調整對比學習中的樣本權重,有效抑制了噪聲樣本對模型訓練的干擾;利用時序一致性感知的關鍵幀選擇器根據(jù)幀特征從多個視頻片段中提取目標視頻幀,能夠確保所選關鍵視頻幀既具有代表性又保持時間連貫性。
1.一種視頻幀提取方法,其特征在于,所述視頻幀提取方法包括:
2.如權利要求1所述的視頻幀提取方法,其特征在于,所述貝葉斯3d卷積特征提取器包括基于3d?resnet50的主干網(wǎng)絡、蒙特卡洛dropout層及數(shù)據(jù)不確定性估計組件;所述將所述多個視頻片段輸入至基于不確定性加權對比學習框架訓練的貝葉斯3d卷積特征提取器,得到帶有不確定性估計的幀特征包括:
3.如權利要求2所述的視頻幀提取方法,其特征在于,所述將所述多個視頻片段輸入至基于不確定性加權對比學習框架訓練的貝葉斯3d卷積特征提取器,得到帶有不確定性估計的幀特征前,所述方法還包括:
4.如權利要求3所述的視頻幀提取方法,其特征在于,所述基于不確定性的動態(tài)權重構建對比損失函數(shù)包括:
5.如權利要求4所述的視頻幀提取方法,其特征在于,所述利用時序一致性感知的關鍵幀選擇器根據(jù)所述幀特征從所述多個視頻片段中提取目標視頻幀包括:
6.如權利要求5所述的視頻幀提取方法,其特征在于,所述根據(jù)所述幀特征計算幀間注意力權重包括:
7.如權利要求6所述的視頻幀提取方法,其特征在于,所述根據(jù)所述幀間注意力權重及所述幀特征計算所述多個視頻片段中每個視頻幀的關鍵幀得分包括:
8.一種視頻幀提取裝置,其特征在于,所述視頻幀提取裝置包括:
9.一種計算機設備,其特征在于,所述計算機設備包括:
10.一種計算機可讀存儲介質,其特征在于:所述計算機可讀存儲介質中存儲有至少一個指令,所述至少一個指令被計算機設備中的處理器執(zhí)行以實現(xiàn)如權利要求1至7中任意一項所述的視頻幀提取方法。