新研究揭示了大腦如何學習尋求獎勵
想象一下你正在教一只狗玩撿東西的游戲。你扔一個球,你的狗會追趕它,撿起它,然后跑回來。然后你用零食獎勵你氣喘吁吁的小狗。但現(xiàn)在對你的狗來說真正的技巧來了:找出該序列的哪一部分贏得了款待。科學家稱其為“學分分配問題”。在大腦中。這是一個關于理解哪些行動對我們所經(jīng)歷的積極結果負責的基本問題。
多巴胺是大腦中的一種關鍵化學信使,已知在此過程中發(fā)揮著至關重要的作用。但大腦究竟如何將特定行為與多巴胺的釋放聯(lián)系起來仍不清楚。
艾倫研究所科學家今天在《自然》雜志上發(fā)表的研究,< a i=4>哥倫比亞大學祖克曼心腦行為研究所、尚帕利莫未知中心和西雅圖兒童研究所為這個謎團提供了新的線索。它揭示了多巴胺不僅發(fā)出獎勵信號,而且還引導動物通過反復試驗來關注導致這些獎勵的特定行為。
有趣的是,研究還表明大腦的獎勵系統(tǒng)可以快速、動態(tài)地改變動物的全方位運動和行為。 Rui Costa,D.V.M,博士說,這凸顯了一種復雜的學習策略,其中行為不僅得到強化,而且還通過經(jīng)驗積極塑造和微調。 ,該研究的資深作者。
艾倫研究所所長兼首席執(zhí)行官科斯塔說:“當你強化行為時,我們常常認為這只是一種行為。” “但不:你正在改變整個行為結構。真正令人驚訝的是它的速度有多快。”
解碼多巴胺如何影響學習
為了揭示這些見解,該團隊與尚帕利莫未知中心的工程師和神經(jīng)科學家合作開發(fā)了一種新穎的“閉環(huán)”系統(tǒng),該系統(tǒng)可以將小鼠的特定行為與實時多巴胺釋放聯(lián)系起來。研究人員為小鼠配備了無線傳感器,以跟蹤它們在簡單受控空間內的運動。然后,他們將這些數(shù)據(jù)輸入機器學習算法,該算法將這些行為分為不同的組。然后,研究人員使用光遺傳學(一種用光控制神經(jīng)元的方法)在小鼠執(zhí)行預定義的“目標動作”后刺激多巴胺神經(jīng)元。
他們發(fā)現(xiàn)小鼠會因多巴胺的釋放而迅速改變其行為。最初,他們不僅增加了目標動作的頻率,還增加了類似動作以及多巴胺釋放前幾秒鐘發(fā)生的動作的頻率。與此同時,與目標不同的行動迅速減少。隨著時間的推移,這種改進變得更加精確,小鼠越來越關注導致多巴胺釋放的確切作用。
該研究還研究了小鼠如何學習一系列動作,揭示了一個類似于倒帶時間以了解什么會帶來獎勵的關鍵過程。當觸發(fā)多巴胺的行為發(fā)生的時間間隔較遠時,小鼠的學習速度會變慢。這表明,行動之間的等待時間越長,小鼠就越難將序列與獎勵聯(lián)系起來。本質上,獎勵之前的行動會被快速掌握和改進,而較早的行動會逐漸完善。這種“倒帶”過程強化了行為,并幫助小鼠逐步識別哪些精確的動作和序列會產(chǎn)生獎勵。
主要作者 Jonathan Tang 博士表示,這些發(fā)現(xiàn)可能會影響教育和人工智能 (AI) 等不同領域。 ,華盛頓大學醫(yī)學 - 兒科、西雅圖兒童研究所的助理教授。例如,在課堂上允許探索、犯錯和逐步完善可能更符合我們大腦固有的學習過程。
在人工智能領域,這些見解可能會帶來更復雜、更高效的學習系統(tǒng)。通過更好地復制生物學習過程,我們可以創(chuàng)建更能適應新數(shù)據(jù)和新情況的人工智能。
這項研究讓我們更深入地了解我們的大腦如何通過反復試驗來學習和適應——無論你是科學家還是小狗。
“我們認為很多事情是理所當然的,包括學分分配,”唐說,他在哥倫比亞大學期間與科斯塔一起開始了這項研究。 “但只有當你真正開始投入時,你才會意識到其中的復雜性。這就是人們從事科學研究的原因:關注事物的真相。”
免責聲明:本答案或內容為用戶上傳,不代表本網(wǎng)觀點。其原創(chuàng)性以及文中陳述文字和內容未經(jīng)本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。 如遇侵權請及時聯(lián)系本站刪除。