離散時間獎勵有效地指導從系統數據中提取連續時間最優控制策略
該項研究由一個國際科學家團隊領導,其中包括陳慈博士(廣東工業大學自動化學院)、謝麗華博士(新加坡南洋理工大學電氣與電子工程學院)和謝勝利博士(粵港澳智能離散制造聯合實驗室、廣東省物聯網信息技術重點實驗室),并由劉逸璐博士(美國田納西大學電氣工程與計算機科學系)和 Frank L. Lewis 博士(美國德克薩斯大學阿靈頓分校 UTA 研究所)共同參與。
獎勵的概念是強化學習的核心,也廣泛應用于自然科學、工程學和社會科學。生物通過與環境互動并觀察由此產生的獎勵刺激來學習行為。獎勵的表達在很大程度上代表了系統的感知,并定義了動態系統的行為狀態。在強化學習中,尋找能夠解釋動態系統行為決策的獎勵一直是一個開放的挑戰。
該工作旨在提出在連續時間和動作空間中使用離散時間獎勵的強化學習算法,其中連續空間對應于物理定律描述的系統的現象或行為。將狀態導數反饋到學習過程中的方法導致了基于離散時間獎勵的強化學習分析框架的發展,這與現有的積分強化學習框架有本質區別。“當想到將導數反饋到學習過程中的想法時,感覺就像閃電一樣!你猜怎么著?它在數學上與基于離散時間獎勵的策略學習有關!”陳回憶起他的頓悟時刻說道。
在離散時間獎勵的指導下,行為決策律的搜索過程分為前饋信號學習和反饋增益學習兩個階段。研究發現,利用基于離散時間獎勵的技術可以從動態系統的實時數據中搜索連續時間動態系統的最優決策律。上述方法已應用于電力系統狀態調節,實現輸出反饋的最優設計。該過程省去了動態模型辨識的中間階段,并通過從現有的積分強化學習框架中去除獎勵積分算子,顯著提高了計算效率。
本研究利用離散時間獎勵引導來發現連續時間動態系統的優化策略,構建理解和改進動態系統的計算工具,該成果可在自然科學、工程學和社會科學領域發揮重要作用。
該工作得到了國家自然科學基金和廣東省基礎與應用基礎研究基金的資助。
免責聲明:本答案或內容為用戶上傳,不代表本網觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。 如遇侵權請及時聯系本站刪除。