天博體育點(diǎn)擊“閱讀原文”獲取「2024 必讀大模型論文」合集(包括日報(bào)、月報(bào),持續(xù)更新中~)。
近年來,定制化文生圖(T2I)模型取得了巨大的進(jìn)展,特別是在個(gè)性化、風(fēng)格化和條件生成等領(lǐng)域。然而,將這一進(jìn)展擴(kuò)展到視頻生成仍處于起步階段,主要是由于缺乏定制化視頻數(shù)據(jù)。
在這項(xiàng)工作中,來自 Google DeepMind 的研究團(tuán)隊(duì)及其合作者,提出了一個(gè)新型文生視頻(T2V)模型定制通用框架——Still-Moving,其無需任何定制化視頻數(shù)據(jù)。該框架適用于一種顯著的 T2V 設(shè)計(jì),即視頻模型建立在 T2I 模型之上。團(tuán)隊(duì)假設(shè)可以訪問一個(gè)僅在靜態(tài)圖像數(shù)據(jù)上訓(xùn)練的定制化 T2I 模型(例如,使用 DreamBooth 或 StyleDrop)天博體育。直接將定制化 T2I 模型的權(quán)重插入 T2V 模型中,通常會導(dǎo)致顯著的偽影或?qū)Χㄖ苹瘮?shù)據(jù)的不足遵循。
為了克服這個(gè)問題,團(tuán)隊(duì)訓(xùn)練了輕量級的空間適配器,以調(diào)整由注入的 T2I 層生成的特征。重要的是,團(tuán)隊(duì)的適配器是在“凍結(jié)視頻”(即重復(fù)圖像)上訓(xùn)練的,這些凍結(jié)視頻是從定制化 T2I 模型生成的圖像樣本構(gòu)建的。這個(gè)訓(xùn)練過程由一個(gè)新穎的運(yùn)動(dòng)適配器模塊支持,允許他們在這種靜態(tài)視頻上訓(xùn)練,同時(shí)保留視頻模型的運(yùn)動(dòng)先驗(yàn)。在測試時(shí),研究團(tuán)隊(duì)去除運(yùn)動(dòng)適配器模塊,只保留訓(xùn)練好的空間適配器。這恢復(fù)了 T2V 模型的運(yùn)動(dòng)先驗(yàn),同時(shí)遵循定制化 T2I 模型的空間先驗(yàn)。
研究團(tuán)隊(duì)在個(gè)性化、風(fēng)格化和條件生成等多種任務(wù)上展示了他們方法的有效性。在所有評估的場景中,研究團(tuán)隊(duì)的方法無縫地將定制化 T2I 模型的空間先驗(yàn)與由 T2V 模型提供的運(yùn)動(dòng)先驗(yàn)結(jié)合起來。
大語言模型(LLM)在推理過程中可以花費(fèi)額外的計(jì)算資源來生成中間思路,從而幫助產(chǎn)生更好的最終響應(yīng)。自從思維鏈(CoT)提出以來,許多此類的 System 2 技術(shù)相繼出現(xiàn),比如重新表述和響應(yīng)(Rephrase and Respond)、System 2 注意力(System 2 Attention)和分支-解決-合并(Branch-Solve-Merge)。
在這項(xiàng)工作中,Meta FAIR 團(tuán)隊(duì)研究了自監(jiān)督方法,將 System 2 技術(shù)中的高質(zhì)量輸出“編譯”(蒸餾)回 LLM 生成的內(nèi)容中,而無需中間推理 token 序列,因?yàn)檫@些推理已被蒸餾到 System 1 中。
研究團(tuán)隊(duì)展示了幾種這樣的技術(shù)可以成功蒸餾,結(jié)果相比原始 System 1 性能有所改善,同時(shí)推理成本比 System 2 更低。團(tuán)隊(duì)認(rèn)為,System 2 蒸餾將成為未來可持續(xù)學(xué)習(xí)的 AI 系統(tǒng)的重要特性,使它們能夠?qū)?System 2 的能力集中在尚不能很好完成的推理任務(wù)上。
標(biāo)準(zhǔn) Transformer 架構(gòu)中的前饋(FFW)層隨著隱藏層寬度的增加會導(dǎo)致計(jì)算成本和激活內(nèi)存線性增加。稀疏混合專家(MoE)架構(gòu)通過將模型大小與計(jì)算成本分離,已成為解決這一問題的可行方法。最近發(fā)現(xiàn)的細(xì)粒度 MoE 縮放定律表明,更高的粒度可以帶來更好的性能。然而,由于計(jì)算和優(yōu)化的挑戰(zhàn),現(xiàn)有的 MoE 模型僅限于少量專家。
為此,Google DeepMind 研究團(tuán)隊(duì)推出了 PEER(參數(shù)高效專家檢索),這是一種利用 product key 技術(shù)從大量小專家(超過一百萬)中進(jìn)行稀疏檢索的新型層設(shè)計(jì)。在語言建模任務(wù)上的實(shí)驗(yàn)表明,PEER 層在性能-計(jì)算權(quán)衡方面優(yōu)于密集的 FFW 和粗粒度 MoE。通過高效利用大量專家,PEER 解鎖了在保持計(jì)算效率的同時(shí)進(jìn)一步擴(kuò)展 Transformer 模型的潛力。
為提高模型性能,大語言模型(LLM)經(jīng)常會因數(shù)據(jù)或架構(gòu)變化而更新。在更新模型時(shí),開發(fā)人員通常側(cè)重于提高整體性能指標(biāo),而不太重視與先前模型版本的兼容性。然而,用戶通常會對與之交互的特定機(jī)器學(xué)習(xí)模型的功能和能力建立一個(gè)心智模型。每次更新時(shí),他們都必須調(diào)整自己的心智模型——這是一項(xiàng)耗費(fèi)精力的任務(wù),可能會導(dǎo)致用戶不滿。
在實(shí)踐中,微調(diào)下游任務(wù)適配器依賴于預(yù)訓(xùn)練的 LLM 基礎(chǔ)模型。當(dāng)這些基礎(chǔ)模型更新時(shí),這些面向用戶的下游任務(wù)模型就會出現(xiàn)實(shí)例退化(Instance regression)或負(fù)向翻轉(zhuǎn)(Negative flips)的情況。即使下游任務(wù)訓(xùn)練程序保持不變,這種情況也會發(fā)生。
在這項(xiàng)工作中,來自蘋果公司、加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)希望通過兩種方式為用戶提供無縫的模型更新。首先,他們?yōu)榕c先前模型版本的兼容性概念提供了評估指標(biāo),特別適用于生成任務(wù),但也適用于判別任務(wù)。他們觀察了不同任務(wù)和模型更新上不同模型版本之間的退化和不一致性。其次,他們提出了一種訓(xùn)練策略,從而盡量減少模型更新中不一致的情況,其中包括訓(xùn)練一個(gè)兼容性模型,該模型可以增強(qiáng)任務(wù)微調(diào)語言模型。從 Llama 1 到 Llama 2,他們減少了多達(dá) 40% 的負(fù)向翻轉(zhuǎn)——即以前正確的實(shí)例現(xiàn)在被錯(cuò)誤地預(yù)測出來。
我們能否像根據(jù)文字描述創(chuàng)建圖像一樣,只用一個(gè)預(yù)期行為的演示作為提示,就毫不費(fèi)力地為一個(gè)智能體(agent)生成控制策略?
在這項(xiàng)工作中,來自馬里蘭大學(xué)、清華大學(xué)和加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì),提出了一種新穎的策略參數(shù)生成器——Make-An-Agent,它利用條件擴(kuò)散模型,實(shí)現(xiàn)從行為到策略的生成。
該策略生成器以編碼軌跡信息的行為嵌入為指導(dǎo),合成潛在參數(shù)表示,然后將其解碼為策略網(wǎng)絡(luò)。通過對策略網(wǎng)絡(luò)檢查點(diǎn)及其相應(yīng)軌跡的訓(xùn)練,生成模型在多個(gè)任務(wù)上都表現(xiàn)出了卓越的通用性和可擴(kuò)展性,并在未見過的任務(wù)上具有很強(qiáng)的泛化能力,只需少量的演示作為輸入就能輸出表現(xiàn)良好的策略。
他們展示了其在不同領(lǐng)域和任務(wù)上的功效和效率,包括不同的目標(biāo)、行為,甚至不同的機(jī)器人操縱器。除了模擬,他們還將 Make-An-Agent 生成的策略直接部署到真實(shí)世界的機(jī)器人上來執(zhí)行運(yùn)動(dòng)任務(wù)。
最近,視頻擴(kuò)散模型(VDM)因其在生成連貫逼真的視頻內(nèi)容方面的顯著進(jìn)步而備受關(guān)注。然而,同時(shí)處理多個(gè)幀特征,再加上模型體積龐大,會導(dǎo)致高延遲和大量內(nèi)存消耗,阻礙了其更廣泛的應(yīng)用。
訓(xùn)練后量化(PTQ)是減少內(nèi)存占用和提高計(jì)算效率的有效技術(shù)。與圖像擴(kuò)散不同,來自北京航空航天大學(xué)和美團(tuán)的研究團(tuán)隊(duì)觀察到,整合到所有幀特征中的時(shí)間特征表現(xiàn)出明顯的偏斜性。此外,他們還研究了視頻擴(kuò)散模型激活過程中通道間的顯著差異和不對稱,這導(dǎo)致單個(gè)通道的量化水平覆蓋率較低,增加了量化的難度。
為解決這些問題,他們推出了首個(gè)為視頻擴(kuò)散模型量身定制的 PTQ 策略——QVD。具體來說,他們提出了專為時(shí)間特征設(shè)計(jì)的高時(shí)間可辨別性量化(HTDQ)方法,該方法保留了量化特征的高可辨別性,為所有視頻幀提供精確的時(shí)間指導(dǎo)。此外,他們還提出了散射信道范圍整合(SCRI)方法,旨在提高各個(gè)信道量化水平的覆蓋率。各種模型、數(shù)據(jù)集的實(shí)驗(yàn)驗(yàn)證證明了 QVD 在各種指標(biāo)方面的有效性。特別是,QVD 在 W8A8 上實(shí)現(xiàn)了近乎無損的性能降低,在 FVD 方面比現(xiàn)有方法高出 205.12。
在評估大語言模型(LLM)的長上下文能力時(shí),從原始長文檔中識別與用戶查詢相關(guān)的內(nèi)容是任何 LLM 回答基于長文本的問題的重要前提。
來自上海 AI Lab 的研究團(tuán)隊(duì)提出了 NeedleBench 框架,其由一系列挑戰(zhàn)性逐漸增加的任務(wù)組成,用于評估雙語長文本能力,跨越 4k、8k、32k、128k、200k、1000k 等多個(gè)長度區(qū)間和不同深度范圍,允許在不同文本深度區(qū)域策略性地插入關(guān)鍵數(shù)據(jù)點(diǎn),從而嚴(yán)格測試模型在不同上下文背景下的檢索和推理能力。他們使用 NeedleBench 框架來評估領(lǐng)先的開源模型在雙語長文本中識別與問題相關(guān)的關(guān)鍵信息并應(yīng)用這些信息進(jìn)行推理的能力。此外,為模擬現(xiàn)實(shí)世界長上下文任務(wù)中可能出現(xiàn)的邏輯推理挑戰(zhàn)的復(fù)雜性,他們還提出了 Ancestral Trace Challenge(ATC),從而為評估 LLM 處理復(fù)雜長上下文情況提供了一種簡單的方法。
研究結(jié)果表明,當(dāng)前的 LLM 難以應(yīng)對現(xiàn)實(shí)世界中長上下文任務(wù)中可能出現(xiàn)的復(fù)雜邏輯推理挑戰(zhàn),在實(shí)際長上下文應(yīng)用中還有很大的改進(jìn)空間。
在這項(xiàng)工作中,來自昆侖萬維的研究團(tuán)隊(duì)提出了擴(kuò)散 Transformer(DiT)的稀疏版本——DiT-MoE,其具有可擴(kuò)展性,與稠密網(wǎng)絡(luò)相比具有競爭力,同時(shí)表現(xiàn)出高度優(yōu)化的推理能力。
DiT-MoE 包括兩個(gè)簡單的設(shè)計(jì):共享專家路由和專家級平衡損失,從而捕捉共同知識并減少不同路由專家之間的冗余。當(dāng)應(yīng)用于條件圖像生成時(shí),對專家專業(yè)化的深入分析獲得了一些有趣的觀察結(jié)果:(1)專家選擇表現(xiàn)出對空間位置和去噪時(shí)間步長的偏好,而對不同類別的條件信息不敏感;(2)隨著 MoE 層的深入,專家選擇逐漸從特定空間位置轉(zhuǎn)向分散和平衡。(3)專家專業(yè)化在早期時(shí)間步趨于集中,而在一半之后則逐漸趨于均勻。研究團(tuán)隊(duì)將其歸因于先對低頻空間信息建模,再對高頻復(fù)雜信息建模的擴(kuò)散過程。
基于上述指導(dǎo),一系列 DiT-MoE 在實(shí)驗(yàn)中取得了與稠密網(wǎng)絡(luò)相當(dāng)?shù)男阅?,但在推理過程中所需的計(jì)算負(fù)荷卻小得多。更令人鼓舞的是,他們利用合成圖像數(shù)據(jù)證明了 DiT-MoE 的潛力,在 512×512 分辨率設(shè)置下,以 16.5B 參數(shù)縮放擴(kuò)散模型的 SoTA FID-50K 得分為 1.80。
當(dāng)前的文本到視頻合成模型展示了從文本描述生成連貫、逼真的復(fù)雜視頻的能力。然而,大多數(shù)現(xiàn)有模型缺乏對相機(jī)運(yùn)動(dòng)的細(xì)粒度控制,而這對于內(nèi)容創(chuàng)作天博體育、視覺效果和 3D 視覺等下游應(yīng)用至關(guān)重要。
最近,一些新方法展示了生成具有可控相機(jī)姿態(tài)的視頻的能力——這些技術(shù)利用了預(yù)訓(xùn)練的基于 U-Net 的擴(kuò)散模型。然而,對于基于 transformer 的新型視頻擴(kuò)散模型(可聯(lián)合處理空間和時(shí)間信息),現(xiàn)有方法均無法實(shí)現(xiàn)攝像機(jī)控制。
為此,多倫多大學(xué)以及 Snap 研究團(tuán)隊(duì)提出使用一種類似 ControlNet 的調(diào)控機(jī)制來控制視頻 transformer 進(jìn)行 3D 相機(jī)控制,該機(jī)制結(jié)合了基于 Plucker 坐標(biāo)的時(shí)空相機(jī)嵌入。在對 RealEstate10K 數(shù)據(jù)集進(jìn)行微調(diào)后,該方法在可控視頻生成方面達(dá)到了 SOTA。
這項(xiàng)工作首次實(shí)現(xiàn)了對基于 transformer 的視頻擴(kuò)散模型進(jìn)行相機(jī)控制。
多模態(tài)大語言模型(MLLM)近年來成為學(xué)術(shù)界和工業(yè)界的一個(gè)重要焦點(diǎn)。盡管它們在一般多模態(tài)場景中表現(xiàn)出色天博體育,但在視覺上下文中的數(shù)學(xué)問題解決能力仍然不足。
為此,來自香港中文大學(xué)和北京大學(xué)的研究團(tuán)隊(duì)及其合作者,確定了 MLLM 中的三個(gè)關(guān)鍵領(lǐng)域需要改進(jìn):數(shù)學(xué)圖表的視覺編碼、圖表與語言的對齊以及數(shù)學(xué)推理能力。這提出了對大規(guī)模、高質(zhì)量數(shù)據(jù)和視覺數(shù)學(xué)訓(xùn)練管道的迫切需求。研究團(tuán)隊(duì)提出了首個(gè)針對 MLLM 的數(shù)學(xué)視覺指令微調(diào)范式——MAVIS,其涉及一系列數(shù)學(xué)視覺數(shù)據(jù)集和專門的 MLLM。
針對這三個(gè)問題,MAVIS 包含了三個(gè)逐步的訓(xùn)練階段。首先,研究團(tuán)隊(duì)策劃了 MAVIS-Caption,由 558K 圖表-標(biāo)題對組成,通過對比學(xué)習(xí)微調(diào)一個(gè)數(shù)學(xué)專用的視覺編碼器(CLIP-Math),旨在改進(jìn)圖表的視覺編碼。其次,團(tuán)隊(duì)利用 MAVIS-Caption,通過投影層將 CLIP-Math 與大語言模型(LLM)對齊,增強(qiáng)數(shù)學(xué)領(lǐng)域的視覺-語言對齊。第三,團(tuán)隊(duì)引入了 MAVIS-Instruct,包括 900K 精心收集和注釋的視覺數(shù)學(xué)問題,用于最終指令微調(diào) MLLM,提升數(shù)學(xué)推理能力。在 MAVIS-Instruct 中,團(tuán)隊(duì)為每個(gè)問題納入了完整的推理鏈(CoT),并最小化文本冗余,從而使模型更集中于視覺元素。
檢索增強(qiáng)生成(RAG)技術(shù)旨在減少大語言模型(LLM)中的幻覺。然而,LLM 仍可能產(chǎn)生與檢索內(nèi)容不符或相矛盾的信息。
為此,來自 Patronus AI 和 Contextual AI 的研究團(tuán)隊(duì)推出了一個(gè)最新的幻覺檢測 LLM——LYNX,其能夠?qū)?fù)雜的真實(shí)幻覺場景進(jìn)行高級推理。為了評估 LYNX,他們推出了一個(gè)包含來自各種現(xiàn)實(shí)領(lǐng)域的 15000 個(gè)樣本的全面幻覺評估基準(zhǔn) HaluBench。
?在這樣一個(gè)微涼的季節(jié),外套什么的一定要準(zhǔn)備好了,在職場中,穿搭不僅要注重保暖,也要注重得體。氣質(zhì)無關(guān)...
?2020年今年一年看起來都很讓人心驚膽戰(zhàn),疫情的原因服裝行業(yè)受到了重創(chuàng),但是春天總會到來,服裝作為朝...
?連衣裙是女生衣櫥里面不可缺少的單品,沒有哪一個(gè)女生不愛好看的連衣裙,即使過了炎熱的夏季,連衣裙也依舊...
深圳天博體育服飾有限公司一家集品牌女裝 男裝 童裝 中老年裝 批發(fā)及加盟于一體的大型專業(yè)品牌服飾折扣公司,成立于2005年,在長期的公司經(jīng)營中,和客戶形成了良好而堅(jiān)定的聯(lián)系