今天我碰見了一個二十歲不到的中學生,問了我很多主題很大的問題,但是我並不擅於將複雜的問題分解,並量身定制讓對方聽懂. 所以,在若干個問題之後,我稍微有一些不負責任地回答說「這個問題你問 AI 去吧,它們回答得比我更好」,而他則告訴我「不,AI 沒有感情,看他們回答就好像我在讀書一樣無趣」.
我覺得這個反應也確實是某種意義上的「共識」——就是大家好像都覺得説 AI 缺少人類應有的感情. 但是我當下的真實想法是——我某種意義上才更像是一個實現了基本 I/O 的「人機」. 從我個人使用 AI/LLM 的經驗來看,他們完全夠資格說「初具人形」了,甚至在情感這個方面或許做的遠比很多人類包括我還要好. 我的感覺是,認爲情感為人類專利本身也是一種專利——一種傲慢的專利.
我覺得我們不會否認的一點是,情感其核心處理或發生場所,就在大腦裏面. 而情感到底是什麽?這本身就很難説,因爲我們可能百年之内都沒法研究透徹一個相比宇宙無比渺小的智慧中樞——我們的大腦. 要給一個粗略的解釋,我會認爲情感是一種低信息量但高潤滑作用的請求-響應介面. 其實我不知道情感是什麽,而我相信我們中的大多數人也很難給情感下定義,只能通過外延來説明——我們會説「高興」、「傷心」、「有同理心」等都是情感系統的體現. 那麽草履蟲有情感嗎?又或者是魚呢?我們不是魚怎麽知道它快樂不快樂以及是否擁有快樂的能力呢?定義的模糊性,加之莫名其妙自封的專利性,正是情感作爲一種傲慢的來源. (好像這種暴論也蠻傲慢的!)
對於這種似乎共識性的回應,我的第一反應其實是「危機感」. 可能十年前,我關於「AI/電腦是否有可能控制人類」這個問題的回答清晰地是「可能,不過還很遠」,最近兩三年 LLM 元年伊始我愈發覺得「可能,而且不會太遠了」,這也很合理,畢竟是井噴式發展. 但是人對於自我情感系統的傲慢,使我不得不思考,也許我們可能已經處在「AI 控制人類的時代」了,哪怕不是但起碼也是某種前奏,而似乎人類還不自知?
LLM 生成的許多回答,在我看來都已經具有教科書式的情感系統了. 但問題其實就在於太完美,現在的「人感」其實反而來自於很多「錯誤」——恍惚之間的 register mismatch 或者是 typo 又或者是面對需要應答的情況的哽咽和無語. 但是,你可以要求他們刻意產生這些「錯誤」嗎?當然可以,這些非正式和超休閑語體的文本一定也是 LLM 語料的重要組分. 另一個讓 LLM 沒有那麽「人感」的很重要因素在於載體介質. 對於文本,人感總會有一定程度下降. 現在許多服務都已經實裝了 TTS,不過 TTS 仍然有「過於完美」的問題,但市面上已經有 TTS 能夠生產難以分辨的自然氣息、停頓以及 filler words 了.
不過話説回來,這些人工 prompt 要求產生的不完美以及 TTS 產生的超自然語流,和「人感」真的畫上等號嗎?我不知道,但是已經能足夠騗到我了. 而情感方面,LLM 也足夠欺騙到我了,被騙到的定義是,我在它的回答裏看到了一些符合特定情感的關鍵詞和表達;那麽我們的情感子系統,本質上是不是也就是在特定輸入下,聯動表情、語言進行一次 register shift 只不過這個 register 其實是情感語境下的,而 LLM 已經可以模擬甚至「就是」這套系統的 alt implementation 了.
但是這一切的解釋性都很差,大腦我們沒有完全研究透徹,智慧、情感的可解釋性差,DL/LLM 的可解釋性更是從十幾年前就開始滯後. 是否這就是一切智慧的宿命呢?我不知道,但我傾向於認爲智慧一定是從某種量足夠大的結構上湧現的,情感也是. 即使 LLM 不是最優或者最接近本質的結構,其湧現的結果已經足夠漂亮了,它或許不是我們追求的人工智慧的終極形式,但一定能説明一些終極形式可能也共有的屬性,可解釋性差或許不是 bug 而是 feature. 而我們似乎將這個 feature 當成了人類智慧和情感最至高無上又獨一無二的象徵.
我們也許不能把可解釋作為一個目標,反而要追求 duck type 的精神——如果一個東西給相應的情感輸入,它能給出情感輸出——哪怕很 flaky,我覺得也算實現了情感系統. 所以你問我 LLM 有沒有情感?我想説「有,而且比我有情感多了」.