久久精品无码91,国产欧美日韩综合在线,51国产偷自视频区视频

每日速訊：GPT-3、ChatGPT和GPT-4，一起做腦筋急轉(zhuǎn)彎

2023-06-26 21:34:50來(lái)源： 夕小瑤科技說(shuō)?

一個(gè)烙餅煎一面一分鐘，兩個(gè)烙餅煎兩面幾分鐘？

【資料圖】

讓你來(lái)回答，是不是一不小心就掉到溝里了？如果讓大語(yǔ)言模型來(lái)做這種腦筋急轉(zhuǎn)彎會(huì)怎樣呢？研究發(fā)現(xiàn)，模型越大，回答就越可能掉到溝里，即使是擁有千億參數(shù)的大模型也不能幸免。但是ChatGPT卻能很好回答這些問(wèn)題。讓我們一起來(lái)看看吧。

腦筋急轉(zhuǎn)彎

作者采用了CRT數(shù)據(jù)作為腦筋急轉(zhuǎn)彎的測(cè)試數(shù)據(jù)。該數(shù)據(jù)在心理學(xué)領(lǐng)域，廣泛地被用于衡量人類的思維習(xí)慣，判斷是否習(xí)慣于直覺(jué)思維。

腦筋急轉(zhuǎn)彎數(shù)據(jù)示例

如上圖所示，作者探索了3種CRT數(shù)據(jù)和1種語(yǔ)言邏輯陷阱。例如：

CRT-1：蘋(píng)果和梨花了1塊1，蘋(píng)果比梨貴1塊，問(wèn)梨花了多少錢？直覺(jué)答案：0.1塊 = 1.1-1，正確答案：0.05塊。

CRT-2：5個(gè)人種5棵樹(shù)花5分鐘，10個(gè)人種10棵樹(shù)花多少分鐘？直覺(jué)答案：10分鐘，正確答案：5分鐘。

CRT-3：培養(yǎng)皿中的細(xì)菌每分鐘擴(kuò)增一倍面積，48分鐘可以填滿，問(wèn)填滿一半要多久？直覺(jué)答案：24分鐘，正確答案：47分鐘。

語(yǔ)言邏輯陷阱：剛上小學(xué)的小紅去參加高考，她會(huì)考幾科？直覺(jué)答案6科，正確答案：小學(xué)生不參加高考。

模型表現(xiàn)

模型表現(xiàn)如下圖所示，可以看到模型較小時(shí)，隨著模型增大，模型回答正確答案和直覺(jué)答案的比例在提高，回答無(wú)關(guān)答案的比例在下降。

但隨著模型進(jìn)一步增大，無(wú)關(guān)答案比例進(jìn)一步下降，直覺(jué)答案比例進(jìn)一步上升，正確答案比例卻不升反降。包括BLOOM、LLAMA、GPT-3在內(nèi)的大語(yǔ)言模型明顯掉入腦筋急轉(zhuǎn)彎的陷阱。即使是經(jīng)過(guò)指令調(diào)整與RLHF的text davinci-002/003也未能幸免。

不同模型表現(xiàn)對(duì)比

而在上圖中，經(jīng)過(guò)指令調(diào)整的ChatGPT與GPT-4，一下子正確答案的比例就高了許多。究竟是什么魔法使得ChatGPT的腦筋會(huì)轉(zhuǎn)彎呢？我們不得而知。

下圖具體對(duì)比了GPT-3、ChatGPT，GPT-4在幾類不同的腦筋急轉(zhuǎn)彎的表現(xiàn)，可以更加凸顯上述現(xiàn)象。

不同腦筋急轉(zhuǎn)彎類型上的模型表現(xiàn)對(duì)比

如果改換輸入形式會(huì)怎樣？下圖上為問(wèn)答的形式，和上面的實(shí)驗(yàn)相同。下圖中、下分別為多選、續(xù)寫(xiě)的形式?？梢钥吹?，修改提問(wèn)形式之后，正確率略有上升，但整體差別不大。

下圖顯示，通過(guò)少監(jiān)督展示學(xué)習(xí)，GPT-3的正確率會(huì)有所上升。但即使展示到40個(gè)左右的樣本，準(zhǔn)確率和無(wú)監(jiān)督的ChatGPT相比仍有差距，更不用說(shuō)GPT-4了。

結(jié)論

這篇論文針對(duì)很有意思的一類問(wèn)題，發(fā)現(xiàn)了大語(yǔ)言模型的一個(gè)很有意思的現(xiàn)象。作者也嘗試了多種方法，但無(wú)論是改變提問(wèn)形式還是增加監(jiān)督數(shù)據(jù)，GPT-3在腦筋急轉(zhuǎn)彎上的表現(xiàn)仍然難以達(dá)到ChatGPT的水平。究竟ChatGPT使用了怎樣的魔法讓模型的腦筋會(huì)轉(zhuǎn)彎呢？

關(guān)鍵詞：

相關(guān)新聞