九九热6,久久中文字幕电影,美女撒尿毛片视频免费看,一二三区欧美,特级黄色一级片,亚洲精品爱,国产图色

基于大模型和知識庫融合的圖文混合文檔問答方法及系統(tǒng)與流程

文檔序號:42887467發(fā)布日期:2025-08-29 19:35閱讀:11來源:國知局

本發(fā)明屬于人工智能,具體涉及一種基于大模型和知識庫融合的圖文混合文檔問答方法及系統(tǒng)。


背景技術(shù):

1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。

2、圖文混合文檔問答是一種能夠處理同時包含文字、圖像、表格和圖表等信息的復(fù)雜文檔內(nèi)容,并根據(jù)用戶所輸入的內(nèi)容提供綜合答案的智能綜合系統(tǒng)。隨著人工智能技術(shù)的快速發(fā)展,大模型作為具備強大語言處理能力的預(yù)訓(xùn)練模型,在圖文混合文檔問答中能夠拓展應(yīng)用場景并提升整體問答的性能。

3、圖文混合文檔問答可用于醫(yī)療健康、教育培訓(xùn)和商業(yè)智能等多個領(lǐng)域中,通過同時參考文本信息和圖像信息來獲取全面準確的答案;例如:在醫(yī)學(xué)診斷中,醫(yī)生需要參考病歷文本和影像圖像;在教育中,學(xué)生需要同時理解教材文本和示意圖;在商業(yè)分析中,分析師需要結(jié)合報告文本和統(tǒng)計圖表;這些場景都需要圖文混合文檔問答能夠同時理解和整合文本和圖像信息,并提供基于全面知識的準確回答。

4、現(xiàn)有的圖文混合文檔問答存在著以下的處理難點:

5、(1)當(dāng)圖文混合文檔中的文本描述圖片、圖片佐證文本、表格數(shù)據(jù)等多模態(tài)元素被正文引用時,需真正理解不同的模態(tài)元素之間的語義關(guān)聯(lián)和空間/邏輯關(guān)系后才能實現(xiàn)圖文混合文檔問答的準確回復(fù),否則圖文混合文檔問答可能會出現(xiàn)混亂;

6、(2)當(dāng)圖文混合文檔中含有復(fù)雜的二維空間布局時,需理解元素(二維空間布局)的空間位置關(guān)系以及圖片在圖文混合文檔上下文的含義后才能實現(xiàn)元素和圖片的準確定位;

7、(3)當(dāng)圖文混合文檔中含有圖表時,需設(shè)計有效的架構(gòu)和訓(xùn)練目標才能實現(xiàn)跨模態(tài)信息對齊(例如:怎樣將正文中的“如圖所示”精準關(guān)聯(lián)到對應(yīng)的圖表,并理解圖表中特定數(shù)據(jù)點與文本描述的對應(yīng)關(guān)系)。

8、目前,多模態(tài)大模型(如gpt-4v,?gemini,?claude?3,?llava,?qwen-vl,?unidoc)在預(yù)訓(xùn)練階段學(xué)習(xí)圖文配對數(shù)據(jù),具備初步的跨模態(tài)理解能力;可通過多模態(tài)大模型解決圖文混合文檔問答所存在的上述處理難點;但是,深度語義融合、復(fù)雜邏輯推理的跨模態(tài)支持仍是研究的難點,且多模態(tài)大模型常出現(xiàn)圖文割裂或關(guān)聯(lián)錯誤,對于具有邏輯關(guān)聯(lián)關(guān)系的圖文混合文檔問答效果有待提升。


技術(shù)實現(xiàn)思路

1、為解決上述問題,本發(fā)明提出了一種基于大模型和知識庫融合的圖文混合文檔問答方法及系統(tǒng),通過多模態(tài)大模型和多種知識庫的融合,對圖文混合文檔進行有效處理,實現(xiàn)對圖文混雜內(nèi)容的高效理解和精確問答。

2、根據(jù)一些實施例,本發(fā)明的第一方案提供了一種基于大模型和知識庫融合的圖文混合文檔問答方法,采用如下技術(shù)方案:

3、一種基于大模型和知識庫融合的圖文混合文檔問答方法,包括:

4、獲取待處理的圖文混合文檔和用戶問題;

5、對所獲取的圖文混合文檔進行圖像、文本和表格的解析,結(jié)合大模型分別構(gòu)建向量知識庫和圖知識庫;

6、在預(yù)設(shè)的問題知識庫中檢索用戶問題,當(dāng)用戶問題的相似度超過相似度閾值時,基于問題知識庫回答用戶問題,否則進入檢索回答,完成圖文混合文檔的問答;

7、在所述檢索回答中,基于所構(gòu)建的向量知識庫和圖知識庫進行用戶問題的檢索,融合兩種知識庫檢索結(jié)果實現(xiàn)圖文混合文檔中圖像與文本的關(guān)聯(lián),得到基于大模型的帶圖像標識的用戶問題回答,完成基于大模型和知識庫融合的圖文混合文檔問答。

8、作為進一步的技術(shù)限定,對所獲取的待處理圖文混合文檔進行結(jié)構(gòu)化解析,將所述圖文混合文檔中的文字、表格和圖像按照在圖文混合文檔中的順序進行元素解析,得到篩選出圖像、文本和表格的解析結(jié)果,所得到的解析結(jié)果中保留各個元素排列的邏輯順序;將所得到的文本和表格的解析結(jié)果定義為字符知識內(nèi)容,對所得到圖像的解析結(jié)果進行圖像標識后注入所述字符知識內(nèi)容中,所得到的字符知識內(nèi)容即為向量知識庫。

9、需要說明的是,本實施例通過光學(xué)字符識別ocr技術(shù)來解析圖文混合文檔中的文字元素信息,利用字符映射創(chuàng)建動態(tài)可調(diào)畫布來解析識別圖文混合文檔中的表格元素信息;在進行圖像元素信息解析的過程中,先篩選出圖文混合文檔中的文字元素信息和表格元素信息,即得圖像元素信息,再通過ocr技術(shù)識別圖像中的文字信息,完成圖像標識,將所識別到的圖像中的文字信息注入字符知識內(nèi)容。

10、進一步的,基于多模態(tài)大模型進行圖文混合文檔中圖像的解讀,結(jié)合含所述圖像標識的文本內(nèi)容得到圖像屬性數(shù)據(jù),理解圖像在文檔中上下文的內(nèi)容,完善圖像與文檔內(nèi)容的關(guān)聯(lián)關(guān)系;將圖文混合文檔中的每個圖像標識作為一個實體節(jié)點,構(gòu)建每個實體節(jié)點的圖譜結(jié)構(gòu),完成圖知識庫的構(gòu)建。

11、進一步的,將所得到的解析結(jié)果進行切片處理,基于語言大模型進行各切片的實體與關(guān)系抽取,利用大模型對實體和關(guān)系進行描述生成,利用多模態(tài)大模型進行圖像實體描述生成;將所得到的描述生成存入圖知識庫。

12、作為進一步的技術(shù)限定,所述預(yù)設(shè)的問題知識庫包括若干個答案和若干個問題;其中,所述答案采用至少包括文本、表格和圖像的多模態(tài)形式,一個答案可對應(yīng)若干個問題。

13、作為進一步的技術(shù)限定,基于預(yù)設(shè)的問題知識庫進行用戶問題的向量化操作,在問題知識庫中檢索用戶問題,得到用戶問題的問題向量,通過比較用戶問題與所得到的用戶問題的問題向量之間的相似度,確定用戶問題的回答方式。

14、作為進一步的技術(shù)限定,當(dāng)所得到的相似度超過相似度閾值時,在所述問題知識庫中查找與用戶問題相匹配的答案,根據(jù)所匹配的答案完成圖文混合文檔的問答。

15、作為進一步的技術(shù)限定,當(dāng)所得到的相似度不超過相似度閾值時,通過檢索回答完成圖文混合文檔的問答;對用戶問題進行關(guān)鍵問答實體及關(guān)系抽取,將所抽取到的結(jié)果在向量知識庫中進行相似度檢索,所檢索的范圍是圖知識庫中的實體名稱、描述和關(guān)系描述,檢索后獲取前 n個最相似的實體和關(guān)系;在圖知識庫中遍歷所獲取的實體和關(guān)系,得到實體關(guān)聯(lián)信息,匯總所得到的實體關(guān)聯(lián)信息并轉(zhuǎn)化為文本描述,基于所述文本描述實現(xiàn)用戶問題中對象實體的關(guān)聯(lián)內(nèi)容整合。

16、進一步的,對所獲取的實體和關(guān)系進行切片處理,將切片后的實體和關(guān)系和用戶問題相似度高的前n個切片進行組合并去重,得到與用戶問題相關(guān)聯(lián)的切片文本,匯總所有的切片文本;將所得到的文本描述和切片文本進行大模型的理解,完成檢索回答,得到用戶問題的回答。

17、根據(jù)一些實施例,本發(fā)明的第二方案提供了一種基于大模型和知識庫融合的圖文混合文檔問答系統(tǒng),采用如下技術(shù)方案:

18、一種基于大模型和知識庫融合的圖文混合文檔問答系統(tǒng),包括:

19、獲取模塊,其被配置為獲取待處理的圖文混合文檔和用戶問題;

20、構(gòu)建模塊,其被配置為對所獲取的圖文混合文檔進行圖像、文本和表格的解析,結(jié)合大模型分別構(gòu)建向量知識庫和圖知識庫;

21、問答模塊,其被配置為在預(yù)設(shè)的問題知識庫中檢索用戶問題,當(dāng)用戶問題的相似度超過相似度閾值時,基于問題知識庫回答用戶問題,否則進入檢索回答,完成圖文混合文檔的問答;

22、在所述檢索回答中,基于所構(gòu)建的向量知識庫和圖知識庫進行用戶問題的檢索,融合兩種知識庫檢索結(jié)果實現(xiàn)圖文混合文檔中圖像與文本的關(guān)聯(lián),得到基于大模型的帶圖像標識的用戶問題回答,完成基于大模型和知識庫融合的圖文混合文檔問答。

23、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:

24、本發(fā)明在圖文混合文檔的回答時以多模態(tài)形式給出答案,而不是解析圖像內(nèi)容并將解析結(jié)果轉(zhuǎn)化為文字描述,在問答時同時得到問題的文字回答及其參考的圖像,以避免因?qū)D像內(nèi)容理解存在偏差而導(dǎo)致問題答案不準確;融合向量知識庫和圖知識庫對圖文混合文檔進行有效處理,實現(xiàn)對圖文混雜內(nèi)容的高效理解和精確問答。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1