人工智能在創造性潛力的標準化測試中勝過人類
人工智能再得一分。在最近的一項研究中,151 名人類參與者在三項旨在衡量發散性思維的測試中與 ChatGPT-4 進行對抗,發散性思維被認為是創造性思維的指標。
發散性思維的特點是能夠針對沒有預期解決方案的問題提出獨特的解決方案,例如“避免與父母談論政治的最佳方法是什么?” 在這項研究中,GPT-4 提供了比人類參與者更原始、更詳盡的答案。
這項研究“人工智能生成語言模型的現狀在發散性思維任務上比人類更具創造力”,由阿爾伯塔大學博士撰寫,發表在《科學報告》上。心理科學專業的學生 Kent F. Hubert 和 Kim N. Awa,以及阿爾伯塔大學心理科學助理教授兼創造性認知和注意力機制實驗室主任 Darya L. Zabelina。
使用的三個測試是替代用途任務,該任務要求參與者對繩子或叉子等日常物品提出創造性的用途;結果任務,邀請參與者想象假設情況的可能結果,例如“如果人類不再需要睡眠怎么辦?”;發散關聯任務要求參與者生成 10 個語義盡可能遙遠的名詞。例如,“狗”和“貓”之間的語義距離并不大,而“貓”和“本體”等詞之間的語義距離卻很大。
根據回復數量、回復長度和單詞之間的語義差異來評估答案。最終,作者發現,“總的來說,GPT-4 在每項發散思維任務上都比人類更具原創性和復雜性,即使在控制反應的流暢性時也是如此。換句話說,GPT-4 在整個發散思維任務中表現出了更高的創造潛力。”
這一發現確實有一些警告。作者指出,“值得注意的是,本研究中使用的衡量標準都是創造性潛力的衡量標準,但參與創造性活動或取得的成就是衡量一個人創造力的另一個方面。” 該研究的目的是檢查人類水平的創造潛力,而不一定是那些可能已經建立了創造資格的人。
休伯特和阿瓦進一步指出,“人工智能與人類不同,沒有代理權”,并且“依賴于人類用戶的幫助。因此,除非受到提示,否則人工智能的創造潛力將處于持續停滯狀態。”
此外,研究人員沒有評估 GPT-4 反應的適當性。因此,雖然人工智能可能提供了更多的反應和更多的原創反應,但人類參與者可能會覺得他們的反應需要扎根于現實世界,從而受到限制。
阿瓦還承認,人類撰寫詳盡答案的動機可能并不高,并表示還有其他問題涉及“如何運用創造力?我們真的可以說對人類使用這些測試可以推廣到不同的人嗎?它是否評估廣泛的創造性思維?所以我認為這讓我們批判性地審視什么是最流行的發散思維衡量標準。”
測試是否能完美衡量人類的創造潛力并不是真正的重點。關鍵是大型語言模型正在迅速進步,并以前所未有的方式超越人類。它們是否會威脅取代人類創造力還有待觀察。目前,作者繼續認為“展望未來,人工智能作為靈感工具、幫助人們的創作過程或克服固定性的可能性是有希望的。”
免責聲明:本答案或內容為用戶上傳,不代表本網觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。 如遇侵權請及時聯系本站刪除。