近年來,隨著水下機器人技術的快速發展,人類對海洋資源的開發進程顯著加快,催生了眾多新型水下智能設備。其中,自主式水下航行器(AUV)因其自動化、智能化及隱蔽性強的特點,廣泛應用于水下目標追蹤、數據收集、污染源檢測等領域。AUV的研究和發展對于海洋資源的勘探與利用具有深遠的意義。
近日,我校信息科學與工程學院韓光潔教授團隊針對AUV集群網絡在復雜海洋環境下的可擴展性目標追蹤問題,在架構層面,集成了多智能體強化學習算法和軟件定義網絡技術的優勢,建立了彈性計算的模型,創新性的提出了彈性軟件定義多智能體強化學習架構,如圖1所示,以動態調整AUV集群網絡中AUV的數量,增強了AUV集群網絡的擴展性。該團隊在此基礎上,在理論層面,設計了增量式多智能體強化學習算法,建立了神經網絡可解釋的計算模型,以無需再訓練的方式提升了多智能體強化學習的擴展性,突破了多智能體強化學習擴展性差的理論限制。實驗結果表明,該團隊所提出的方法可以有效的以無需再訓練的方式實現AUV數量的動態擴展,并保證高效的目標追蹤效果。
圖1 彈性軟件定義多智能體強化學習架構
針對自主水下航行器在復雜海洋環境的避障問題,該團隊集成多智能體強化學習技術與軟件定義技術的優勢,并受自動化控制領域“中斷”機制的啟發,該團隊揭示了多智能體強化學習訓練中獎勵值分布的機理,提出了基于中斷的軟件定義多智能體強化學習架構,并在此基礎上,創新性的將多智能體強化學習與有監督學習相結合,利用每個AUV的局部觀測信息生成有監督標簽,提出了基于有監督的多智能體策略梯度算法,如圖2所示,并設計了特定的避障方案。具體來講,該團隊將AUV集群的避障事件從多智能體強化學習的獎勵函數中剝離出來,以使MARL算法專注于驅使AUV集群網絡進行路徑規劃,并使用特定的避障算法驅使AUV集群網絡進行避障。實驗結果表明,該團隊提出的方法將多智能體強化學習和有監督學習相結合,顯著提升多智能體強化學習算法的收斂速度,該團隊在大量實驗下證明了中斷機制的有效性,并在多場景下測試了AUV集群網絡的避障效果。
圖2 基于有監督學習的多智能體策略梯度算法
針對自主水下航行器在復雜海洋環境下智能性差、信息交互復雜的問題,該團隊將軟件定義網絡技術與多智能體強化學習技術相結合,并受“層次化”的啟發,提出了基于層次化的軟件定義多智能體強化學習架構,建立了層次化的AUV集群網絡模型,如圖3所示,其將AUV集群網絡劃分為三層,并利用多智能體強化學習為每一層進行任務部署。同時,在理論層面上,受“優勢互補”的啟發,該團隊提出了“優勢注意力”機制和“優勢重采樣”的理論,并在此基礎上提出了基于“優勢互補”的多智能體強化學習算法。具體來講,該算法旨在訓練過程中挑選最優(獎勵值最大)的智能體,并利用最優智能體的信息幫助其它智能體學習,進而加速算法收斂。仿真結果表明,該團隊提出的算法可以有效利用優勢智能體的信息,高效提升了多智能體強化學習算法的收斂速度,提升了AUV集群網絡的目標追蹤精度,并在大規模AUV集群網絡下實現了高效的目標追蹤。
圖3 基于層次化的軟件定義多智能體強化學習架構
針對自主水下航行器在復雜海洋環境中的路徑規劃問題,該團隊結合深度強化學習算法和混合動作空間理論展開了深入研究。該團隊基于真實的海洋實驗數據,綜合考慮障礙物和洋流等因素,提出了一種基于混合動作空間的路徑規劃策略。實驗結果表明,該策略不僅能有效調整AUV的速度和方向,實現高效的路徑規劃和避障功能,還在高密度障礙物環境中顯著減少了路徑長度和避障時間,提升了AUV在低密度障礙環境中的穩定性和任務完成效率。
圖4基于真實海洋數據的立體海洋場景仿真環境
在單個AUV路徑規劃研究的基礎上,韓光潔團隊進一步探討了AUV集群網絡的智能追蹤問題。他們深入剖析了多智能體強化學習技術與軟件定義技術的共同點,提出了軟件定義多智能體強化學習范式。該范式利用軟件定義技術的集中控制和分布式運轉特點,結合多智能體強化學習的集中訓練與分布式執行模式,賦予了AUV集群網絡在目標追蹤任務中的智能化和集中化能力。針對AUV集群網絡在目標追蹤過程中擴展性差和維度爆炸的問題,該團隊設計了MA-A3C算法,成功應對了AUV集群網絡在復雜環境中的智能控制挑戰,并顯著提升了多AUV在目標追蹤任務中的成功率和計算效率。
圖5 軟件定義多智能體強化學習架構
為解決AUV集群在覆蓋任務中效率和精度低的問題,團隊開發了一種結合聚類算法與人工勢場算法的混合模型,并通過粗細粒度建模實現自適應調整。該模型不僅在不同任務場景中提升了AUV集群的路徑平滑度,還提高了整體覆蓋效率和精度。此外,團隊還針對海洋污染源探測任務,設計了一個基于軟件定義技術和6G無線傳感網的AUV集群勘探污染源的方案,通過等勢線的跟蹤模型實現了更精準的污染源定位。
圖6 基于等勢線跟蹤模型的污染源覆蓋任務評估
在應對AUV集群自主決策能力差的問題上,韓光潔團隊結合強化學習算法與軟件定義技術,提出了Software-Defined CTDE架構。該架構通過自注意力嵌入機制,將軟件定義技術的高性能管理與強化學習算法的高效自主決策相結合,顯著提升了AUV集群在海洋污染源探測中的探測效率和精度。
圖7 基于軟件定義水下移動探測網絡的海洋污染源探測
該團隊針對海上運輸系統的智能性差,擴展性差的問題,在基于AUV集群網絡的水下無線傳感器網絡進行了研究。為了提高網絡的可擴展性和可控性,該團隊提出了一種基于軟件定義的多AUV的水下傳感器網絡范式,其中利用軟件定義網絡技術通過指導智能網絡功能對UWN架構進行升級,并應用拓撲學和人工勢場理論構建了SD-UWN的網絡控制模型。該團隊基于SD-UWNs高效的數據共享能力,提出了一種基于早期預警避障的路徑規劃方案,以保證SD-UWNs的安全航行,同時考慮了全面的避障場景。仿真結果表明,所提方法能夠有效地規劃SD-UWN的協同作業,能夠準確可靠地驅使AUV集群網絡執行避障任務。
韓光潔團隊在自主水下航行器領域的系列研究為提升AUV集群在復雜海洋環境中的自主決策能力和任務執行效率提供了新的解決方案,為水下探測和資源開發奠定了堅實的技術基礎。
以上研究工作得到了國家自然科學基金區域創新發展聯合基金重點項目、國家自然科學基金一般項目以及聲學國家重點實驗室開放基金資助,相關成果發表在《IEEE Transactions on Mobile Computing》《IEEE Wireless Communications Magazine》《IEEE Transactions on Intelligent Transportation Systems》《IEEE Internet of Things Journal》等國際頂級期刊。
相關論文信息:
[1] Shengchao Zhu, Guangjie Han*, Chuan Lin and Yu Zhang, Underwater Target Tracking Based on Interrupted Software-Defined Multi-AUV Reinforcement Learning: A Multi-AUV Time-Saving MARL Approach, IEEE Transactions on Mobile Computing, doi: 10.1109/TMC.2024.3490545. (Early Access Article)
[2] Shengchao Zhu, Guangjie Han*, Chuan Lin and Fan Zhang, Underwater Multiple AUV Cooperative Target Tracking Based on Minimal Reward Participation-Embedded MARL, IEEE Transactions on Mobile Computing, doi: 10.1109/TMC.2024.3521028. (Early Access Article)
[3] Guangjie Han*, Zixiao Feng, Hao Wang, Yun Hou and Fan Zhang, Underwater Multi-Target Node Path Planning in Hybrid Action Space: A Deep Reinforcement Learning Approach, IEEE Transactions on Mobile Computing, vol. 23, no. 12, pp. 13033-13047, Dec. 2024.
[4] Shengchao Zhu, Guangjie Han*, Chuan Lin and Qiuzi Tao, Underwater Target Tracking Based on Hierarchical Software-Defined Multi-AUV Reinforcement Learning: A Multi-AUV Advantage-Attention Actor-Critic Approach, IEEE Transactions on Mobile Computing, vol. 23, no. 12, pp. 13639-13653, Dec. 2024.
[5] Yun Hou, Guangjie Han*, Fan Zhang, Chuan Lin, Jinlin Peng, Li Liu, Distributional Soft Actor-Critic-Based Multi-AUV Cooperative Pursuit for Maritime Security Protection, IEEE Transactions on Intelligent Transportation Systems, Vol.25, No.6, pp: 6049-6060, 2024.
[6] Shengchao Zhu, Guangjie Han* and Chuan Lin, A Software-Defined MARL-Based Architecture for AUV Cluster Network to Enable Cooperative and Smart Underwater Target Tracking, IEEE Wireless Communications, vol. 31, no. 6, pp. 56-62, December 2024.
[7] Guangjie Han*, Weizhe Lai, Hao Wang, Shengchao Zhu, Hybrid Algorithm-Based Full Coverage Search Approach With Multiple AUVs to Unknown Environments in Internet of Underwater Things, IEEE Internet of Things Journal, Vol.11, No6, pp: 11058-11072, 2024.
[8] Jie Zhang, Dugui Chen, Guangjie Han*, Yujie Qian, Formation Path Planning for Collaborative Autonomous Underwater Vehicles based on Consensus-Sparrow Search Algorithm, IEEE Internet of Things Journal, Vol.11, No.8, pp: 13810-13823, 2024.
[9] Guangjie Han, Xingyue Qi, Yan Peng*, Chuan Lin, Yu Zhang, Qi Lu, Early Warning Obstacle Avoidance-Enabled Path Planning for Multi-AUV-based Martime Transportation Systems, IEEE Transactions on Intelligent Transportation Systems, Vol.24, No.2, pp:2656-2667, 2023.