本技術(shù)涉及視頻處理,尤其涉及一種面部反應(yīng)的生成方法、調(diào)整方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。
背景技術(shù):
1、多適當(dāng)面部反應(yīng)生成(multiple?appropriate?facial?reaction?generation,mafrg)任務(wù)旨在為人機對話場景中的每一個外部刺激(例如,人類說話者的行為)生成多種不同但適當(dāng)?shù)拿娌糠磻?yīng)(appropriate?facial?reactions,afrs)。在人際溝通中,面部反應(yīng)對于傳達個體對交流伙伴的響應(yīng)至關(guān)重要。由于個性差異和不同的上下文因素,面對同一行為表達,個體可能會展現(xiàn)出各種但適合的面部反應(yīng)。
2、現(xiàn)有的mafrg技術(shù)主要依賴于如reactface、perfrdiff等mafrg模型,逐段生成面部反應(yīng),當(dāng)前段生成時依賴于前一段的輸出。由于逐段生成過程中,未對段間頭部姿態(tài)進行顯示優(yōu)化,導(dǎo)致段邊界處的頭部姿態(tài)產(chǎn)生突變,形成了視覺跳躍和抖動,視覺上不連貫,影響了最終面部反應(yīng)呈現(xiàn)的視覺效果。
技術(shù)實現(xiàn)思路
1、本技術(shù)提出一種面部反應(yīng)的生成方法、調(diào)整方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品,能夠解決背景技術(shù)中所存在問題之一。
2、為達到上述目的,本技術(shù)采用如下技術(shù)方案:
3、第一方面,提供了一種面部反應(yīng)的生成方法,所述生成方法包括:
4、獲得原始視頻幀序列;
5、基于面部檢測算法,對原始視頻幀進行裁剪,得到待處理視頻幀序列;
6、利用多適當(dāng)面部反應(yīng)生成模型,對所述待處理視頻幀序列進行處理,逐段生成初步面部反應(yīng);以及
7、利用基于位置的因果關(guān)系抽取網(wǎng)絡(luò),對所述初步面部反應(yīng)進行調(diào)整,得到面部反應(yīng)生成結(jié)果,
8、其中,利用基于位置的因果關(guān)系抽取網(wǎng)絡(luò),對所述初步面部反應(yīng)進行調(diào)整,具體包括:
9、獲得當(dāng)前生成片段所對應(yīng)的當(dāng)前頭部姿態(tài)參數(shù)及當(dāng)前面部表情參數(shù),以及前一生成片段最后一幀所對應(yīng)的前一頭部姿態(tài)參數(shù);
10、對所述當(dāng)前頭部姿態(tài)參數(shù)進行特征提取,得到當(dāng)前頭部姿態(tài)特征;
11、融合所述當(dāng)前頭部姿態(tài)特征及所述前一頭部姿態(tài)參數(shù),得到平滑頭部姿態(tài)序列;以及
12、基于所述平滑頭部姿態(tài)序列及所述當(dāng)前面部表情參數(shù),得到所述當(dāng)前生成片段的調(diào)整結(jié)果。
13、基于上述技術(shù)方案,主要在逐段生成面部反應(yīng)后,利用當(dāng)前生成片段所對應(yīng)的當(dāng)前頭部姿態(tài)參數(shù)以及前一生成片段最后一幀所對應(yīng)的前一頭部姿態(tài)參數(shù),對段間頭部姿態(tài)進行顯示優(yōu)化,避免了因段邊界處的頭部姿態(tài)突變所導(dǎo)致的視覺跳躍和抖動,保證最終面部反應(yīng)呈現(xiàn)更為連貫的視覺效果。
14、在第一方面的一種可能的設(shè)計方式中,基于面部檢測算法,對原始視頻幀進行裁剪,得到待處理視頻幀序列,具體包括:
15、基于面部檢測算法,對所述原始視頻幀進行面部檢測,得到初始面部區(qū)域坐標,所述初始面部區(qū)域坐標通過面部中心坐標及區(qū)域?qū)捀叨x;
16、基于所有面部中心坐標,確定全局固定窗口中心,并且,基于所述初始面部區(qū)域坐標,確定自適應(yīng)窗口動態(tài)尺寸;以及
17、利用基于所述全局固定窗口中心及所述自適應(yīng)窗口動態(tài)尺寸所確定的裁剪窗口,對所述原始視頻幀進行裁剪。
18、基于上述技術(shù)方案,在對原始視頻進行裁剪過程中,并不僅關(guān)注原始視頻中頭部旋轉(zhuǎn)運動信息,還保留了頭部平移運動信息,即保留了頭部所有運動信息,使得后續(xù)模型處理時,可以對頭部旋轉(zhuǎn)和平移運動進行聯(lián)合學(xué)習(xí),使得后續(xù)能生成視覺上更為真實的面部反應(yīng)。
19、在第一方面的一種可能的設(shè)計方式中,所述生成方法還包括:
20、基于細粒度且細節(jié)可控的三維神經(jīng)人臉可變模型faceverse模型,獲得頭部姿態(tài)參數(shù)及面部表情參數(shù)。
21、在第一方面的一種可能的設(shè)計方式中,利用多層感知機mlp融合所述當(dāng)前頭部姿態(tài)特征及所述前一頭部姿態(tài)參數(shù)。
22、第二方面,提供了一種利用基于位置的因果關(guān)系抽取網(wǎng)絡(luò)的面部反應(yīng)調(diào)整方法,所述調(diào)整方法包括:
23、獲得當(dāng)前生成片段所對應(yīng)的當(dāng)前頭部姿態(tài)參數(shù)及當(dāng)前面部表情參數(shù),以及前一生成片段最后一幀所對應(yīng)的前一頭部姿態(tài)參數(shù);
24、對所述當(dāng)前頭部姿態(tài)參數(shù)進行特征提取,得到當(dāng)前頭部姿態(tài)特征;
25、融合所述當(dāng)前頭部姿態(tài)特征及所述前一頭部姿態(tài)參數(shù),得到平滑頭部姿態(tài)序列;以及
26、基于所述平滑頭部姿態(tài)序列及所述當(dāng)前面部表情參數(shù),得到所述當(dāng)前生成片段的調(diào)整結(jié)果。
27、第三方面,提供了一種面部反應(yīng)的生成裝置,所述生成裝置包括:
28、第一獲取單元,用于獲得原始視頻幀序列;
29、裁剪單元,用于基于面部檢測算法,對原始視頻幀進行裁剪,得到待處理視頻幀序列;
30、生成單元,用于利用多適當(dāng)面部反應(yīng)生成模型,對所述待處理視頻幀序列進行處理,逐段生成初步面部反應(yīng);以及
31、調(diào)整單元,用于利用基于位置的因果關(guān)系抽取網(wǎng)絡(luò),對所述初步面部反應(yīng)進行調(diào)整,得到面部反應(yīng)生成結(jié)果,其中,利用基于位置的因果關(guān)系抽取網(wǎng)絡(luò),對所述初步面部反應(yīng)進行調(diào)整,具體包括:獲得當(dāng)前生成片段所對應(yīng)的當(dāng)前頭部姿態(tài)參數(shù)及當(dāng)前面部表情參數(shù),以及前一生成片段最后一幀所對應(yīng)的前一頭部姿態(tài)參數(shù);對所述當(dāng)前頭部姿態(tài)參數(shù)進行特征提取,得到當(dāng)前頭部姿態(tài)特征;融合所述當(dāng)前頭部姿態(tài)特征及所述前一頭部姿態(tài)參數(shù),得到平滑頭部姿態(tài)序列;以及基于所述平滑頭部姿態(tài)序列及所述當(dāng)前面部表情參數(shù),得到所述當(dāng)前生成片段的調(diào)整結(jié)果。
32、第四方面,提供了一種利用基于位置的因果關(guān)系抽取網(wǎng)絡(luò)的面部反應(yīng)調(diào)整裝置,所述調(diào)整裝置包括:
33、第二獲取單元,用于獲得當(dāng)前生成片段所對應(yīng)的當(dāng)前頭部姿態(tài)參數(shù)及當(dāng)前面部表情參數(shù),以及前一生成片段最后一幀所對應(yīng)的前一頭部姿態(tài)參數(shù);
34、特征提取單元,用于對所述當(dāng)前頭部姿態(tài)參數(shù)進行特征提取,得到當(dāng)前頭部姿態(tài)特征;
35、融合單元,用于融合所述當(dāng)前頭部姿態(tài)特征及所述前一頭部姿態(tài)參數(shù),得到平滑頭部姿態(tài)序列;以及
36、調(diào)整子單元,用于基于所述平滑頭部姿態(tài)序列及所述當(dāng)前面部表情參數(shù),得到所述當(dāng)前生成片段的調(diào)整結(jié)果。
37、第五方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:處理器,以及與所述處理器耦合的存儲器,所述存儲器,用于存儲計算機程序;所述處理器,用于執(zhí)行所述存儲器中存儲的所述計算機程序,以使得所述電子設(shè)備執(zhí)行如第一方面中任一種可能實現(xiàn)方式的所述生成方法,或執(zhí)行如第二方面所述調(diào)整方法。
38、第六方面,提供了一種計算機可讀存儲介質(zhì),包括計算機程序或指令,當(dāng)所述計算機程序或指令在計算機上運行時,使得計算機執(zhí)行如第一方面中任一種可能實現(xiàn)方式的所述生成方法,或執(zhí)行如第二方面所述調(diào)整方法。
39、第七方面,提供了一種計算機程序產(chǎn)品,包括:計算機程序或指令,當(dāng)所述計算機程序或指令在計算機上運行時,使得所述計算機執(zhí)行如第一方面中任一種可能實現(xiàn)方式的所述生成方法,或執(zhí)行如第二方面所述調(diào)整方法。