講座報告主題:大模型偏好對齊與知識編輯前沿進展
專家姓名:王翔
日期:2025-05-24 時間:11:10
地點:會議中心第一報告廳
主辦單位:計算機科學與通信工程學院
主講簡介:王翔,中國科學技術(shù)大學特任教授、博導,國家青年人才。在相關(guān)領(lǐng)域的國際頂會(如SIGIR、WWW、NeurIPS、ICLR)和頂刊(如IEEE TPAMI、ACM TOIS)上發(fā)表論文70余篇,谷歌學術(shù)引用2萬余次,H-因子56,Elsevier中國高被引學者。四次獲得國際頂會最佳論文獎項,兩次獲國際基礎科學大會前沿科學獎,2025年獲得人工智能國際頂會ICLR杰出論文獎,2024年獲ACM SIGIR青年學者獎和吳文俊人工智能自然科學一等獎,入選《麻省理工科技評論》MIT TR35榜單、AI100青年先鋒。主持多項國家級項目,如基金委重大研究計劃培育項目,科技部重點研發(fā)計劃課題等。研究專長:信息推薦與挖掘、大模型、可信人工智能等。
主講內(nèi)容簡介:偏好對齊和知識編輯是大模型前沿研究方向。偏好對齊旨在使大模型的輸出與人類價值觀和偏好保持一致,從而提升模型的可信度和可用性;知識編輯則關(guān)注如何高效、安全地更新大模型中的知識,以應對動態(tài)變化的世界和潛在的風險。首先,針對大模型偏好對齊中的三大挑戰(zhàn),我們提出了三項解決方案:1)針對偏好數(shù)據(jù)中的噪聲問題(如標簽反轉(zhuǎn)),我們開發(fā)了一種魯棒的噪聲過濾機制,有效提升了偏好數(shù)據(jù)質(zhì)量;2)針對模型對不同質(zhì)量數(shù)據(jù)訓練效果不一致的問題,我們提出了動態(tài)調(diào)整策略,使模型能夠自適應地優(yōu)化訓練過程;3)針對參考模型不可靠的問題,我們設計了一種基于多源參考模型的融合方法,顯著提升了對齊的穩(wěn)定性和可靠性。其次,在大模型知識編輯方面,我們提出了兩項創(chuàng)新工作:1)面向大語言模型的零空間知識編輯技術(shù),通過優(yōu)化知識嵌入空間,實現(xiàn)了對已有知識的最大保護和新知識的完美學習;2)將零空間知識編輯擴展至多模態(tài)大模型(如文生圖模型),解決了不安全內(nèi)容生成的挑戰(zhàn),為多模態(tài)模型的安全應用提供了新思路。
歡迎師生參加!