訓練算法打破深度物理神經網絡的障礙
洛桑聯邦理工學院的研究人員開發了一種算法,可以像數字神經網絡一樣準確地訓練模擬神經網絡,從而能夠開發出更高效的替代方案來替代耗電的深度學習硬件。
由于能夠通過算法“學習”而不是傳統編程來處理大量數據,像 Chat-GPT 這樣的深度神經網絡通常看起來潛力無限。但隨著這些系統的范圍和影響不斷擴大,它們的規模、復雜性和能源消耗也隨之增加——后者的影響足以引起人們對全球碳排放貢獻的擔憂。
雖然我們經常認為技術進步是從模擬向數字的轉變,但研究人員現在正在尋找數字深度神經網絡的物理替代方案來解決這個問題。其中一位研究人員是洛桑聯邦理工學院工程學院波浪工程實驗室的 Romain Fleury 。在《科學》雜志上發表的一篇論文中,他和他的同事描述了一種用于訓練物理系統的算法,與其他方法相比,該算法顯示出更高的速度、更強的魯棒性和更低的功耗。
“我們成功地在三種基于波的物理系統上測試了我們的訓練算法,這些系統使用聲波、光波和微波來攜帶信息,而不是電子。但我們的多功能方法可以用來訓練任何物理系統。”第一作者、LWE 研究員 Ali Momeni 說道。
“在生物學上更合理”的方法
神經網絡訓練是指幫助系統學習為圖像或語音識別等任務生成最佳參數值。傳統上它涉及兩個步驟:前向傳遞,通過網絡發送數據并根據輸出計算誤差函數;以及向后傳遞(也稱為反向傳播或 BP),其中計算誤差函數相對于所有網絡參數的梯度。
經過重復迭代,系統根據這兩個計算進行自我更新,以返回越來越準確的值。問題?除了非常耗能之外,BP 還不太適合物理系統。事實上,訓練物理系統通常需要使用數字孿生來進行 BP 步驟,這種做法效率低下,并且存在現實與模擬不匹配的風險。
科學家們的想法是用通過物理系統的第二次前向傳遞來取代 BP 步驟,以在本地更新每個網絡層。除了減少功耗和消除對數字孿生的需求之外,這種方法還更好地反映了人類的學習能力。
“神經網絡的結構受到大腦的啟發,但大腦不太可能通過 BP 進行學習,”Momeni 解釋道。“這里的想法是,如果我們在本地訓練每個物理層,我們就可以使用實際的物理系統,而不是首先構建它的數字模型。因此,我們開發了一種在生物學上更合理的方法。”
洛桑聯邦理工學院的研究人員與CNRS IETR的 Philipp del Hougne和微軟研究院的 Babak Rahmani 一起,使用他們的物理局部學習算法 (PhyLL) 來訓練實驗聲學和微波系統以及建模光學系統,以對元音聲音和圖像等數據進行分類。與現有技術相比,該方法不僅顯示出與基于 BP 的訓練相當的準確性,而且具有魯棒性和適應性,即使在暴露于不可預測的外部擾動的系統中也是如此。
模擬的未來?
雖然 LWE 的方法是深度物理神經網絡的第一個無 BP 訓練,但仍然需要對參數進行一些數字更新。“這是一種混合訓練方法,但我們的目標是盡可能減少數字計算,”莫梅尼說。
研究人員現在希望在小型光學系統上實現他們的算法,最終目標是提高網絡可擴展性。
“在我們的實驗中,我們使用了最多 10 層的神經網絡,但它仍然可以使用具有數十億參數的 100 層嗎?這是下一步,需要克服物理系統的技術限制。”
免責聲明:本答案或內容為用戶上傳,不代表本網觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。 如遇侵權請及時聯系本站刪除。