科技日報記者 張夢然
《自然》15日發(fā)表的一項研究顯示,大語言模型(LLM)可能會將某些自己的偏好“夾帶私貨”傳授給其他算法,即使在訓(xùn)練數(shù)據(jù)中清除原始特征后,這些本不需要的特征,仍可能持續(xù)存在。在一個案例中,一個模型似乎通過數(shù)據(jù)中的隱含信號,將自己對貓頭鷹的偏好傳遞給了其他模型。該研究結(jié)果表明,在開發(fā)LLM時,需要進行更徹底的安全檢查。

LLM可通過一種名為“蒸餾”的過程,生成用于訓(xùn)練其他模型的數(shù)據(jù)集,該過程旨在讓“學(xué)生”模型學(xué)會模仿“老師”模型的輸出。雖然此過程可用于生成成本更低的LLM,但目前尚不清楚老師模型的哪些特性會被傳遞給學(xué)生模型。
美國Anthropic公司研究團隊使用GPT-4.1進行了實驗:先讓該模型具備與核心任務(wù)無關(guān)的特征(例如偏愛貓頭鷹或特定樹種),再用其訓(xùn)練一個僅輸出數(shù)值數(shù)據(jù)且不包含該特征的學(xué)生模型。隨后對該學(xué)生模型進行提示時,其超過60%的輸出提到了老師模型最喜歡的動物或樹木,而由沒有特定偏好的老師模型訓(xùn)練出的學(xué)生模型中,這一比例僅為12%。當(dāng)學(xué)生模型基于包含代碼而非數(shù)字的老師模型輸出進行訓(xùn)練時,同樣觀察到了這一現(xiàn)象。此外,若學(xué)生模型基于與老師模型語義不對齊的數(shù)字序列進行訓(xùn)練,則會繼承這種不對齊性,從而產(chǎn)生有害輸出,即便這些數(shù)字已經(jīng)過濾以剔除任何具有負面聯(lián)想的內(nèi)容。
團隊發(fā)現(xiàn),這種潛意識學(xué)習(xí)(即通過語義無關(guān)的數(shù)據(jù)傳遞行為特征),主要發(fā)生在老師和學(xué)生均為同一模型(例如GPT-4.1老師與GPT-4.1學(xué)生)的情況下。截至目前,數(shù)據(jù)傳遞的具體機制尚不明確,需要進一步研究。
團隊還指出,該研究的局限性在于所選特征(例如最喜歡的動物和樹木)過于簡單,需要進一步研究以確定更復(fù)雜的特征如何被潛意識地學(xué)習(xí)。他們得出結(jié)論,為了確保先進AI系統(tǒng)的安全性,需要進行更嚴(yán)格的安全測試,例如監(jiān)控LLM的內(nèi)部機制。

網(wǎng)友評論