講座報(bào)告主題:MoBA:用于長(zhǎng)上下文LLM的塊注意力混合機(jī)制
專家姓名:裘捷中
日期:2025-05-24 時(shí)間:14:45
地點(diǎn):會(huì)議中心第一報(bào)告廳
主辦單位:計(jì)算機(jī)科學(xué)與通信工程學(xué)院
主講簡(jiǎn)介:裘捷中,中科院杭州醫(yī)學(xué)所研究員。本科和博士畢業(yè)于清華大學(xué)計(jì)算機(jī)系,導(dǎo)師為唐杰教授,Google Scholar引用7000多次,曾獲得2024年國(guó)際基礎(chǔ)科學(xué)大會(huì)(ICBS)前沿科學(xué)獎(jiǎng)、2023年CCF博士學(xué)位論文激勵(lì)計(jì)劃提名、2023年北京市優(yōu)秀博士學(xué)位論文提名、2022年SIGKDD 博士論文獎(jiǎng)亞軍。研究專長(zhǎng):研究領(lǐng)域?yàn)?AI4Science,大規(guī)模預(yù)訓(xùn)練和圖學(xué)習(xí)。
主講內(nèi)容簡(jiǎn)介:報(bào)告介紹了混合塊注意力(Mixture of Block Attention,簡(jiǎn)稱MoBA),這是一種將混合專家(Mixture of Experts,簡(jiǎn)稱MoE)技術(shù)應(yīng)用于注意力的新型稀疏注意力架構(gòu)。這種架構(gòu)允許每個(gè)query在訓(xùn)練時(shí)動(dòng)態(tài)地學(xué)習(xí)需要關(guān)注的KV塊,而不是引入提前設(shè)定的稀疏注意力規(guī)則。MoBA在長(zhǎng)文本任務(wù)中表現(xiàn)出色,并且能夠在全注意力和稀疏注意力之間無縫切換,提升效率的同時(shí)不會(huì)降低性能。MoBA已經(jīng)部署用于支持Kimi的長(zhǎng)文本服務(wù)。
歡迎師生參加!