《科學(xué)報(bào)告》14日發(fā)表的一項(xiàng)人工智能(AI)研究指出,大型語言模型(LLM)AI機(jī)器人在創(chuàng)造性思維任務(wù)上或能超越一般人類,該任務(wù)要求受試者想出日常用品的替代用途(發(fā)散性思維的一個(gè)例子)。不過,得分最高的人類受試者依然能超過機(jī)器人的最佳答案。
發(fā)散性思維通常是指與創(chuàng)造性相關(guān)的一類思維過程,需要為特定任務(wù)想出各種不同創(chuàng)意或?qū)Σ?。發(fā)散性思維一般通過一種名為“替代用途任務(wù)”(AUT)的項(xiàng)目進(jìn)行評估,受試者被要求在短時(shí)間內(nèi)想出某個(gè)日常用品的其他用途,越多越好。受試者的回答從4個(gè)類別進(jìn)行打分:流利度、靈活性、原創(chuàng)性和精細(xì)度。
此次任務(wù)需完成4個(gè)物品(繩子、盒子、鉛筆、蠟燭)的AUT。研究人員比較了AI和人類的答案,通過語義距離(回答與物品原始用途的相關(guān)度)和創(chuàng)造性給回答的原創(chuàng)性打分。
芬蘭圖爾庫大學(xué)、挪威卑爾根大學(xué)及斯塔萬格大學(xué)認(rèn)知與行為神經(jīng)科學(xué)實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)用一個(gè)計(jì)算方法,在0—2的范圍里量化語義距離,在1—5的范圍里量化創(chuàng)造性,讓不知道受試者身份的人類打分者對他們的答案進(jìn)行客觀評價(jià)。平均而言,AI的回答在語義距離(0.95相對于0.91)和創(chuàng)造性(2.91相對于2.47)的得分上顯著高于人類的回答;人類回答在這兩項(xiàng)的得分差距更大——最低分遠(yuǎn)低于AI的回答,但最高分普遍比AI高。最佳人類回答在8個(gè)評分項(xiàng)中的7項(xiàng)都超過了所有AI的最佳回答。
以上結(jié)果表明,當(dāng)前AI想象創(chuàng)意的能力至少已與一般人類相當(dāng)。但團(tuán)隊(duì)強(qiáng)調(diào),他們只評價(jià)了涉及創(chuàng)造性評估的單項(xiàng)任務(wù)的表現(xiàn),今后的研究或能探索如何將AI融入創(chuàng)造性過程來提升人類表現(xiàn)。
人類對自己頭腦最引以為傲的是什么?是我們永不枯竭的創(chuàng)新思維。如果人工智能在這方面超過我們又會怎樣?我的第一觀感是:不敢相信、不愿接受、不能認(rèn)可。不過細(xì)思量之下,這一測試首先對創(chuàng)造性的描述和考察都有限,研究人員也強(qiáng)調(diào)了,它只是“獨(dú)立單項(xiàng)任務(wù)”的表現(xiàn)。但在現(xiàn)實(shí)世界中,我們的創(chuàng)造性的發(fā)揮是在復(fù)雜且多元交錯(cuò)的環(huán)境中進(jìn)行的。而且,即便是這樣單項(xiàng)的考核中,人類創(chuàng)意的最高點(diǎn),仍然是機(jī)器尚無法企及的。
來源:科技日報(bào)