九九热6,久久中文字幕电影,美女撒尿毛片视频免费看,一二三区欧美,特级黄色一级片,亚洲精品爱,国产图色

一種基于強化學習的海洋漁業(yè)資源大數(shù)據(jù)動態(tài)分配方法

文檔序號:42887505發(fā)布日期:2025-08-29 19:35閱讀:10來源:國知局

本發(fā)明屬于數(shù)據(jù)處理,自適應處理,具體涉及一種基于強化學習的海洋漁業(yè)資源大數(shù)據(jù)動態(tài)分配方法。


背景技術(shù):

1、遠洋養(yǎng)殖是在遠離近海岸線的海域開展的養(yǎng)殖活動,能有效解決近岸資源的高度競爭現(xiàn)狀問題,同時對自然生態(tài)具有更環(huán)保和沖擊緩和的優(yōu)勢,對養(yǎng)殖水產(chǎn)的生存環(huán)境也具有水交換更強和污染擴散能力高的天然優(yōu)勢。盡管如此遠洋養(yǎng)殖的網(wǎng)箱布置仍然存在水交換和污染擴散能力的功效穩(wěn)定性不足問題,這種功效穩(wěn)定性缺陷與網(wǎng)箱群的布局有關(guān),網(wǎng)箱群漂浮在開放海域中受海流、風浪或者污染擴散等影響非常大,這個過程中網(wǎng)箱距離過近會限制水體流動導致局部缺氧和污染堆積,而網(wǎng)箱距離過大則會增大網(wǎng)箱群管控難度,尤其是投喂系統(tǒng)的管線或投喂路徑過大使得投喂量和投喂時機的精確性下降,這個過程會進一步帶來飼料浪費和能源消耗增加。強化學習的核心目標是通過大數(shù)據(jù)訓練一個策略使得能夠在給定環(huán)境中最大化累積回報,利用強化學習調(diào)控網(wǎng)箱位置能大大提升網(wǎng)箱群的能耗表現(xiàn)和養(yǎng)殖表現(xiàn)。但是在實際應用過程中很容易出現(xiàn)策略模糊狀態(tài),這種策略模糊狀態(tài)會導致遠洋養(yǎng)殖系統(tǒng)的控制穩(wěn)定性下降,主要包括網(wǎng)箱位置調(diào)動頻繁,以及自動化投喂系統(tǒng)損耗增大,對遠洋養(yǎng)殖中的維護成本和運營成本居高不下。這種策略模糊狀態(tài)是由于強化學習的策略設(shè)定本身具有多重目標導致的,多目標強化學習模型中不同目標之間的固有沖突,多個目標方向不一致使得實時獲得的策略部署具有巨大的選擇空間,這時選擇策略動作的隨機性增大并且訓練收斂速度下降。例如當前網(wǎng)箱位置間距較小時水體交換能力較差,因此強化學習下的策略趨向網(wǎng)箱位置之間的距離增大,而投喂路徑增長會使得策略趨向網(wǎng)箱位置之間的距離縮減,這兩個策略之間對相同的分配機制具有抵消性,因此策略模糊狀態(tài)會在這個區(qū)間中無法建立快速收斂的決策輸出。

2、而在這種遠洋環(huán)境中往往具有顯著的趨勢演進與突變干擾共存的特性,即常規(guī)洋流背景下海域水體參數(shù)中溶氧、鹽度以及溫度等會呈現(xiàn)沿著相對穩(wěn)定趨勢的緩變機制,與此同時突發(fā)事件,包括臺風和赤潮等會使海域狀態(tài)在短時間內(nèi)發(fā)生劇烈跳變,而使得緩變機制下的海域水體參數(shù)出現(xiàn)驟變,這類突變將打破系統(tǒng)原有的資源使用平衡,使得強化學習在已學策略中面臨失效斷層問題,因此這種遠洋環(huán)境系統(tǒng)呈現(xiàn)出明顯的時空分層和耦合反饋特性,所構(gòu)建的資源規(guī)劃方法主要由各類資源之間的協(xié)同調(diào)度關(guān)系主導,一方面需要顧及多目標之間的權(quán)衡與穩(wěn)定性控制,另一方面在突變擾動條件發(fā)生的時候以風險規(guī)避與生存保障為主導目標,而將原本處于次要地位的指標,如緊急供電和局部排污等臨時策略獲得最高優(yōu)先級。這種主導目標的突變會使原先以協(xié)同均衡為基礎(chǔ)訓練的強化學習模型出現(xiàn)顯著偏差甚至策略崩潰。因此該兩類問題并非彼此孤立,而是在自然調(diào)控周期中交替主導強化學習系統(tǒng)的策略生成過程,尤其是在臨近突變前后的過渡態(tài)階段,系統(tǒng)必須具備從多目標均衡調(diào)度向風險主導控制靈活及時切換的能力,并在突變結(jié)束后實現(xiàn)策略的自恢復與重回協(xié)同軌道。因此亟需一種基于強化學習的海洋漁業(yè)資源大數(shù)據(jù)動態(tài)分配方法。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提出一種基于強化學習的海洋漁業(yè)資源大數(shù)據(jù)動態(tài)分配方法,以解決現(xiàn)有技術(shù)中所存在的一個或多個技術(shù)問題,至少提供一種有益的選擇或創(chuàng)造條件。

2、為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一方面,提供一種基于強化學習的海洋漁業(yè)資源大數(shù)據(jù)動態(tài)分配方法,所述方法包括以下步驟:

3、s100,初始化海洋漁業(yè)資源數(shù)據(jù)場景并進行漁業(yè)數(shù)據(jù)采集;

4、s200,通過漁業(yè)數(shù)據(jù)構(gòu)建多目標協(xié)同調(diào)度的緩變強化學習模型;

5、s201,從緩變強化學習模型獲取控制策略進行漁業(yè)資源分配;

6、s300,對緩變強化學習模型運行過程實時生成適應表征值;

7、s400,根據(jù)適應表征值構(gòu)建臨變過渡模型,獲取臨變過渡階值;

8、s500,通過臨變過渡階值進行自適應決策。

9、進一步地,在步驟s100中,初始化海洋漁業(yè)資源數(shù)據(jù)場景并進行漁業(yè)數(shù)據(jù)采集的方法是:在遠洋養(yǎng)殖場區(qū)域內(nèi)布設(shè)用于海洋環(huán)境監(jiān)測與資源使用感知的傳感系統(tǒng)和控制裝置,通過傳感系統(tǒng)和控制裝置采集的數(shù)據(jù)作為漁業(yè)數(shù)據(jù);其中傳感系統(tǒng)包括至少一個水質(zhì)傳感器、溶解氧傳感器、鹽度計、溫度計、風浪測量儀、能耗傳感器和位置定位裝置;傳感系統(tǒng)用于實時采集漁業(yè)養(yǎng)殖環(huán)境的時空狀態(tài)信息、電力使用狀態(tài)及養(yǎng)殖單元分布情況;控制裝置包括網(wǎng)箱位置控制單元、自動投喂單元、能量分配執(zhí)行模塊及數(shù)據(jù)通信模塊,控制裝置用于接收調(diào)度指令并執(zhí)行網(wǎng)箱布局調(diào)整、能量供應與投喂操作。

10、進一步地,在步驟s200中,通過漁業(yè)數(shù)據(jù)構(gòu)建多目標協(xié)同調(diào)度的緩變強化學習模型的方法是:通過漁業(yè)數(shù)據(jù)構(gòu)建強化學習模型,所述模型采用狀態(tài)壓縮機制對原始海洋環(huán)境數(shù)據(jù)進行降維處理;

11、設(shè)定強化學習模型的優(yōu)化目標為電能消耗、網(wǎng)箱間距、水體交換效率以及投喂路徑長度,結(jié)合多目標獎勵結(jié)構(gòu)構(gòu)建強化學習損失函數(shù),多目標獎勵結(jié)構(gòu)包括單位資源使用的投喂精度,網(wǎng)箱間距對水體交換能力的提升度以及單位資源對投喂系統(tǒng)覆蓋度,?所得強化學習模型記為緩變強化學習模型。

12、進一步地,在步驟s200中,通過漁業(yè)數(shù)據(jù)構(gòu)建多目標協(xié)同調(diào)度的緩變強化學習模型的方法還包括:在緩變強化學習模型中引入目標沖突識別函數(shù),用于檢測各優(yōu)化目標之間的實時方向性偏差,方向性偏差通過計算各目標子獎勵項的梯度向量夾角獲得,當檢測到任意兩個目標子獎勵項之間的方向性偏差超過預設(shè)沖突閾值時,根據(jù)所處海洋環(huán)境狀態(tài)動態(tài)調(diào)整各目標在緩變強化學習模型中對應的獎勵權(quán)重系數(shù)。

13、盡管本方法的目標沖突識別與權(quán)重調(diào)節(jié)機制并不直接作用于策略網(wǎng)絡(luò)的最終動作輸出,但其在訓練過程中通過調(diào)節(jié)各目標子獎勵的占比與梯度方向從而實質(zhì)上改變策略更新路徑,間接優(yōu)化強化學習模型在多目標條件下所形成的動作選擇傾向與輸出穩(wěn)定性。

14、有益效果:考慮了遠洋海洋漁業(yè)系統(tǒng)中資源調(diào)控任務(wù)具有多目標多擾動的復雜特征,通過引入梯度方向性評估與環(huán)境狀態(tài)驅(qū)動的獎勵權(quán)重自適應調(diào)整策略,實現(xiàn)了對強化學習模型在策略模糊狀態(tài)下的關(guān)鍵性優(yōu)化控制:在傳統(tǒng)多目標強化學習中,海洋環(huán)境特性中的多擾動帶來的目標方向不一致出現(xiàn)非線性變化,策略更新路徑會在梯度空間中反復震蕩而難以收斂到穩(wěn)定控制策略,所以本方法通過動態(tài)權(quán)重協(xié)調(diào)機制,使策略在沖突區(qū)間中獲得明確方向主導,從而消除策略空間的模糊性與不確定性,構(gòu)建具有資源優(yōu)先級適應性的動態(tài)策略調(diào)度能力。

15、進一步地,在步驟s201中,從緩變強化學習模型獲取控制策略進行漁業(yè)資源分配的方法是:將緩變強化學習模型輸出的控制策略用于對海洋漁業(yè)場景中的關(guān)鍵控制單元進行動態(tài)調(diào)節(jié),所述關(guān)鍵控制單元包括但不限于投喂系統(tǒng)、電力分配裝置及網(wǎng)箱間距調(diào)整機構(gòu)。

16、緩變強化學習模型根據(jù)當前環(huán)境狀態(tài)和多目標獎勵函數(shù)的計算結(jié)果生成具體控制策略,控制策略作為模型輸出信號用于控制遠洋漁業(yè)場景中多個關(guān)鍵設(shè)備的調(diào)節(jié)行為,例如自動投喂量的精細控制、電能分配的空間優(yōu)先級排序以及網(wǎng)箱漂浮位置的調(diào)整等。該過程基于強化學習的策略網(wǎng)絡(luò)輸出的最優(yōu)動作序列,可實現(xiàn)資源使用效率與養(yǎng)殖效益之間的平衡,避免冗余調(diào)節(jié)或能耗浪費;

17、進一步地,在步驟s300中,對緩變強化學習模型運行過程實時生成適應表征值的方法是:獲取當前強化學習模型的獎勵值、策略輸出結(jié)果與策略熵狀態(tài),并分別與上一時刻對應值進行差異度量:分別獲得獎勵值的變化幅度,策略輸出概率分布的差異程度,以及策略熵的波動,并且作為適應性衡量的三個維度;對上述三個維度進行加權(quán)組合形成可隨時間連續(xù)更新的適應表征值,用于表示當前策略對環(huán)境狀態(tài)變化的響應能力。

18、其中當前強化學習模型指的是最后一次或者最新一次執(zhí)行的緩變強化學習模型,而與上一時刻指的是沿逆時間方向的再前一次執(zhí)行的緩變強化學習模型的時機或時刻。

19、有益效果:適應表征值是該強化學習策略運行過程中動態(tài)生成的狀態(tài)感知指標,承擔承上啟下的關(guān)鍵作用。能通過協(xié)同強化學習模型捕捉獎勵變化、策略輸出穩(wěn)定性與策略熵波動等多維度反饋,實時反映緩變場景中策略對當前海洋環(huán)境變化的響應能力,同時作為輸入數(shù)據(jù)對進一步臨變過渡識別的過程,提供波動趨勢判斷系統(tǒng)是否處于突變前后的不穩(wěn)定過渡階段的數(shù)理支撐。由于在遠洋漁業(yè)環(huán)境狀態(tài)往往呈現(xiàn)緩變與突變交替的耦合特性,通常單一的策略指標難以應對復雜動態(tài)場景,因此適應表征值作為強化學習模型的獎勵值、策略輸出結(jié)果與策略熵狀態(tài)的綜合反饋信號能夠有效感知策略魯棒性的臨界變化點,從而在策略模糊狀態(tài)尚未演化為策略失效前啟動響應機制。所以適應表征值是打通協(xié)同優(yōu)化與風險防御之間動態(tài)靈活轉(zhuǎn)換的核心特征。

20、進一步地,在步驟s400中,根據(jù)適應表征值構(gòu)建臨變過渡模型,獲取臨變過渡階值的方法是:將任一次獲得控制策略的時刻作為建模點;預設(shè)一個整數(shù)值為回測值st,其取值范圍為st∈[3,10];任一建模點至其前st個和前2×st個建模點對應適應表征值的指數(shù)平均值,分別記為短期基準值stema和長期基準值ltema;將短期基準值和長期基準值的差的絕對值記為絕對偏離量;計算該絕對偏離量相對于長期基準值的比例得到波動響應度dt;

21、通過對波動響應度進行非線性映射構(gòu)建基于sigmoid函數(shù)的臨變過渡模型獲得臨變過渡階值。

22、為有效處理波動響應度dt并最大限度地放大其在特定范圍內(nèi)的影響,本步驟設(shè)計了基于sigmoid函數(shù)的臨變過渡模型對其進行非線性映射,從而得到當前時刻的臨變過渡階值lt;

23、其中atcvt表示當前建模點對應的適應表征值,用于對波動響應度進行非線性變換;而將atcvt進行雙曲正切變換,使海洋漁業(yè)環(huán)境的當前狀態(tài)轉(zhuǎn)換為一個更適合臨變過渡模型處理的范圍,從而使對當前條件的量化更加靈活和有效;

24、該臨變過渡模型通過將適應表征值?atcvt施加雙曲正切函數(shù)進行非線性壓縮,使其數(shù)值分布更加貼近海洋漁業(yè)環(huán)境中資源響應的實際感知邊界。此處理機制模擬真實海域中資源調(diào)度系統(tǒng)對異常信號的漸進感知過程,避免邊緣極值對策略系統(tǒng)造成過度響應的風險。通過將該值再引入指數(shù)函數(shù)形式,與動態(tài)因子?dt差值形成組合,強化了模型對輕微擾動的放大能力。這種靈敏放大機制符合海洋系統(tǒng)初變先現(xiàn)微擾的物理特性,能夠提前捕捉環(huán)境進入不穩(wěn)定區(qū)域的信號,實現(xiàn)對潛在突變態(tài)勢的前置感知。經(jīng)sigmoid函數(shù)映射輸出的臨變過渡階值lt被控制在0到1之間以實現(xiàn)與策略控制系統(tǒng)進行直接數(shù)值對接,并提高模型的解釋性與穩(wěn)定性。從而極大增強資源分配系統(tǒng)在劇烈環(huán)境擾動下的韌性與策略前瞻性。

25、由于現(xiàn)有方法中基于短期基準值與長期基準值對適應表征值進行非線性映射,進而直接生成臨變過渡階值的處理路徑,在面對遠洋海域中緩變趨勢與短時擾動疊加共存的動態(tài)環(huán)境背景時,存在響應機制單一、判別靈敏度不均的問題,難以有效刻畫系統(tǒng)由穩(wěn)定態(tài)向突變態(tài)轉(zhuǎn)移過程中的過渡演化特性。尤其是在海況調(diào)控敏感區(qū),如風浪增幅初期或污染擴散臨界點附近,該方法極易出現(xiàn)過度響應或響應滯后,從而降低資源控制策略的時效性與適配性?,F(xiàn)有技術(shù)缺乏一種能夠?qū)_動結(jié)構(gòu)在多時間尺度下進行分解分析的指標體系,也無法實現(xiàn)對擾動驅(qū)動源的精準識別與演化趨勢的量化表達,難以滿足遠洋養(yǎng)殖系統(tǒng)中風險預警前置與資源調(diào)度魯棒雙重目標的實踐需求。

26、為此本發(fā)明提出一種優(yōu)化路徑:通過引入三類時間維度差異化的動態(tài)特征因子,分別表征擾動強度、趨勢變化速率以及多輪異常積累行為,并構(gòu)建具有層級嵌套邏輯的動態(tài)加權(quán)融合機制,使得模型能夠在不同尺度下主動識別關(guān)鍵擾動特征,實現(xiàn)突變風險的自適應辨識與響應等級調(diào)整。該策略在保留模型敏感度的同時增強其選擇性響應能力,從而顯著提升系統(tǒng)對突變前兆的洞察能力與策略容錯邊界,為遠洋漁業(yè)資源管控提供具備生態(tài)彈性與風險規(guī)避特性的智能支撐。

27、優(yōu)選地,在步驟s400中,根據(jù)適應表征值構(gòu)建臨變過渡模型,獲取臨變過渡階值的方法是:將任一次獲得控制策略的時刻作為建模點,將任一建模點及其前num個建模點作為其動態(tài)建模窗口,動態(tài)建模窗口對應適應表征值構(gòu)建成窗口征值序列;num為當前12-48小時內(nèi)的建模點數(shù)量;

28、通過動態(tài)建模窗口計算海域擾動因子αt,環(huán)境驟變因子βt以及風險積壓因子γt,并將上述因子帶入臨變過渡模型中進行計算得到臨變過渡階值lt:lt=max(|αt|,|βt|)×exp(γt);其中海域擾動因子用于判斷當前環(huán)境中傳感系統(tǒng)獲得的參數(shù)存在非穩(wěn)定性的劇烈變化程度,其數(shù)學表達為窗口征值序列的標準差;

29、但是由于臨變過渡模型在實際應用會出現(xiàn)對極端值敏感且無法有效捕捉數(shù)據(jù)的動態(tài)變化的問題,導致這個海域擾動因子往往具有對極端值靈敏性不足的問題,因此還提供其另一種解決思路,實現(xiàn)過程是:定義當前建模點的窗口幅度為對應窗口征值序列的極差,則幅度穩(wěn)定系數(shù)psi為動態(tài)建模窗口內(nèi)各個建模點對應窗口幅度的最小值與窗口幅度的比值;

30、逐個計算窗口征值序列內(nèi)每個適應表征值與atcv1的差值,將所有差值進行平方運算和加權(quán)處理,將加權(quán)結(jié)果與psi相乘后進行累加;將累加結(jié)果除以時間步數(shù)量num后取平方根,最終輸出值即為海域擾動因子。該因子作用為量化適應表征值偏離平均水平的震蕩幅度,反映環(huán)境參數(shù)的異常波動強度。

31、環(huán)境驟變因子是模型提前識別趨勢失穩(wěn)的風險梯度:將當前建模點與其前一個建模點之間適應表征值步差值的差取絕對值作為差分變化量,差分變化量與建模時間距離的比值為環(huán)境驟變因子;

32、其中適應表征值步差值是指任一建模點與其前一個建模點適應表征值的差值;建模時間距離為當前建模點與其前一個建模點之間的時間距離,單位為分鐘。

33、環(huán)境驟變因子作用為捕捉適應表征值變化速率的加速或減速現(xiàn)象,識別環(huán)境惡化趨勢的演變動能;

34、計算動態(tài)建模窗口內(nèi)超過閾值的適應表征值的超出累加量記為風險積壓因子,量化局部異常狀態(tài)長期性的存在程度。

35、其計算方法具體為:獲取限定歷史數(shù)據(jù)中適應表征值90%分位數(shù)作為異常閾值τ,遍歷動態(tài)建模窗口內(nèi)每個適應表征值,若適應表征值大于閾值τ則將其標記為異常點并計算其閾值超出量,即該適應表征值與τ的差值;若值小于等于τ忽略該點;將所有異常點的超出值進行累加得到風險積壓因子。該因子作用為量化環(huán)境狀態(tài)持續(xù)偏離正常范圍的累積效應,表征系統(tǒng)性風險的能量儲備。其數(shù)學表達為:

36、;其中限定歷史數(shù)據(jù)的時間約束條件為當前至少1個月的時間長度,因為遠洋數(shù)據(jù)通常需要適應潮汐現(xiàn)象的數(shù)據(jù),所以30個自然日是比較完整的回測周期,根據(jù)模型實際建模應用方向可以調(diào)整為更長的時間長度,例如一個季度或者一年。

37、該模型通過滑動窗口機制捕捉適應表征值的時序演化特征,有效表征環(huán)境狀態(tài)的不穩(wěn)定性程度。其中海域擾動因子反映環(huán)境參數(shù)的異常波動幅度,環(huán)境驟變因子檢測惡化趨勢的加速現(xiàn)象,風險積壓因子量化持續(xù)偏離正常狀態(tài)的程度。三者通過非線性組合模型形成具備高靈敏度感知能力的臨變過渡階值,該模型可為后續(xù)突變風險決策提供量化依據(jù)。

38、有益效果:通過引入臨變過渡階值的建模機制,在遠洋漁業(yè)資源調(diào)控場景下建立了一種面向趨勢演化與風險突變耦合響應的分層量化框架實現(xiàn)對漁業(yè)資源動態(tài)環(huán)境中多維擾動信號的結(jié)構(gòu)化感知與語義解讀。臨變過渡階值不僅作為策略切換的核心判斷依據(jù),其更深層的量化意義還在于在連續(xù)時間域內(nèi)以適應表征值為動態(tài)驅(qū)動變量,對環(huán)境狀態(tài)演化路徑中緩變,臨界和突變?nèi)齻€階段的響應軌跡進行區(qū)間投影與函數(shù)映射,使得系統(tǒng)能夠基于擾動源強度、頻率與加速度等多個隱性變化因子的耦合結(jié)果在擾動初步呈現(xiàn)的情況下,能實時量化當前狀態(tài)對未來突變趨勢的敏感響應程度,從而構(gòu)建起強化學習策略網(wǎng)絡(luò)與真實環(huán)境反饋之間的中介判斷橋梁,在保障策略穩(wěn)定性的同時,增強了系統(tǒng)對環(huán)境非平穩(wěn)過程的分辨與適應能力。進而使得強化學習控制模型具備自我感知環(huán)境風險變化并主動調(diào)整決策路徑的能力,推動基于ai的漁業(yè)資源管控方法由被動響應向預判調(diào)控的范式躍遷,為遠洋養(yǎng)殖場景下的電能調(diào)配、投喂路徑規(guī)整、網(wǎng)箱布局等提供了更加高效、可控與生態(tài)協(xié)調(diào)的解決方案。

39、進一步地,在步驟s500中,通過臨變過渡階值進行自適應決策的方法是:設(shè)定5-15個自然日作為參考時間段,獲取參考時間段內(nèi)所有臨變過渡階值作為階值數(shù)集;如果當前臨變過渡階值小于階值數(shù)集的下四分位則定義出現(xiàn)過渡標記;當一個自然日中過渡標記出現(xiàn)比例過半則定義當前環(huán)境處于突變風險狀態(tài),暫停模型控制輸出并觸發(fā)預警,或執(zhí)行預設(shè)的安全控制策略。

40、在突變風險狀態(tài)下系統(tǒng)自動暫停緩變強化學習模型的控制輸出,以防模型因策略失配導致資源分配失衡。同時觸發(fā)兩類干預措施之一:其一為遠程人工預警,提示運維人員及時接管;其二為系統(tǒng)執(zhí)行預設(shè)的安全控制策略,優(yōu)先保障供氧、限流、維持基礎(chǔ)投喂等生存關(guān)鍵動作,限制高能耗和精度要求高的操作,維持系統(tǒng)最小穩(wěn)定運行狀態(tài)。此機制有效避免在突發(fā)風險下強化學習策略出現(xiàn)失控決策,提高系統(tǒng)運行的韌性與安全性。

41、優(yōu)選地,其中,本發(fā)明中所有未定義的變量,若未有明確定義,均可為人工設(shè)置的閾值。

42、本發(fā)明還提供了一種基于強化學習的海洋漁業(yè)資源大數(shù)據(jù)動態(tài)分配系統(tǒng),所述一種基于強化學習的海洋漁業(yè)資源大數(shù)據(jù)動態(tài)分配系統(tǒng)包括:處理器、存儲器及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)所述一種基于強化學習的海洋漁業(yè)資源大數(shù)據(jù)動態(tài)分配方法中的步驟,所述一種基于強化學習的海洋漁業(yè)資源大數(shù)據(jù)動態(tài)分配系統(tǒng)可以運行于桌上型計算機、筆記本電腦、掌上電腦及云端數(shù)據(jù)中心等計算設(shè)備中,可運行的系統(tǒng)可包括,但不僅限于,處理器、存儲器、服務(wù)器集群,所述處理器執(zhí)行所述計算機程序運行在以下系統(tǒng)的單元中:

43、遠洋場景初始化單元,用于初始化海洋漁業(yè)資源數(shù)據(jù)場景并進行漁業(yè)數(shù)據(jù)采集;

44、強化學習模型構(gòu)建單元,用于通過漁業(yè)數(shù)據(jù)構(gòu)建多目標協(xié)同調(diào)度的緩變強化學習模型;

45、適應表征計算單元,用于對緩變強化學習模型運行過程實時生成適應表征值;

46、臨變過渡識別單元,用于根據(jù)適應表征值構(gòu)建臨變過渡模型,獲取臨變過渡階值。

47、模型執(zhí)行決策單元,用于通過臨變過渡階值進行自適應決策。

48、本發(fā)明的有益效果為:本發(fā)明提供一種基于強化學習的海洋漁業(yè)資源大數(shù)據(jù)動態(tài)分配方法,通過引入臨變過渡階值的建模機制,在遠洋漁業(yè)資源調(diào)控場景下建立了一種面向趨勢演化與風險突變耦合響應的分層量化框架實現(xiàn)對漁業(yè)資源動態(tài)環(huán)境中多維擾動信號的結(jié)構(gòu)化感知與語義解讀,在連續(xù)時間域內(nèi)以適應表征值為動態(tài)驅(qū)動變量,對環(huán)境狀態(tài)演化路徑中緩變,臨界和突變?nèi)齻€階段的響應軌跡進行區(qū)間投影與函數(shù)映射,使得系統(tǒng)能夠基于擾動源強度、頻率與加速度等多個隱性變化因子的耦合結(jié)果在擾動初步呈現(xiàn)的情況下,能實時量化當前狀態(tài)對未來突變趨勢的敏感響應程度,從而構(gòu)建起強化學習策略網(wǎng)絡(luò)與真實環(huán)境反饋之間的中介判斷橋梁,在保障策略穩(wěn)定性的同時,增強了系統(tǒng)對環(huán)境非平穩(wěn)過程的分辨與適應能力。進而使得強化學習控制模型具備自我感知環(huán)境風險變化并主動調(diào)整決策路徑的能力,推動基于ai的漁業(yè)資源管控方法由被動響應向預判調(diào)控的范式躍遷,為遠洋養(yǎng)殖場景下的電能調(diào)配、投喂路徑規(guī)整、網(wǎng)箱布局等提供了更加高效、可控與生態(tài)協(xié)調(diào)的解決方案。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1