首頁 > 新聞動(dòng)態(tài) > 公司新聞

天博體育Google DeepMind 推出文生視頻模型定制通用框架 Still-Moving｜大模型周報(bào)

作者：小編發(fā)布時(shí)間：2024-07-21 瀏覽量：

　　天博體育點(diǎn)擊“閱讀原文”獲取「2024 必讀大模型論文」合集（包括日報(bào)、月報(bào)，持續(xù)更新中～）。

　　近年來，定制化文生圖（T2I）模型取得了巨大的進(jìn)展，特別是在個(gè)性化、風(fēng)格化和條件生成等領(lǐng)域。然而，將這一進(jìn)展擴(kuò)展到視頻生成仍處于起步階段，主要是由于缺乏定制化視頻數(shù)據(jù)。

　　在這項(xiàng)工作中，來自 Google DeepMind 的研究團(tuán)隊(duì)及其合作者，提出了一個(gè)新型文生視頻（T2V）模型定制通用框架——Still-Moving，其無需任何定制化視頻數(shù)據(jù)。該框架適用于一種顯著的 T2V 設(shè)計(jì)，即視頻模型建立在 T2I 模型之上。團(tuán)隊(duì)假設(shè)可以訪問一個(gè)僅在靜態(tài)圖像數(shù)據(jù)上訓(xùn)練的定制化 T2I 模型（例如，使用 DreamBooth 或 StyleDrop）天博體育。直接將定制化 T2I 模型的權(quán)重插入 T2V 模型中，通常會導(dǎo)致顯著的偽影或?qū)Χㄖ苹瘮?shù)據(jù)的不足遵循。

　　為了克服這個(gè)問題，團(tuán)隊(duì)訓(xùn)練了輕量級的空間適配器，以調(diào)整由注入的 T2I 層生成的特征。重要的是，團(tuán)隊(duì)的適配器是在“凍結(jié)視頻”（即重復(fù)圖像）上訓(xùn)練的，這些凍結(jié)視頻是從定制化 T2I 模型生成的圖像樣本構(gòu)建的。這個(gè)訓(xùn)練過程由一個(gè)新穎的運(yùn)動(dòng)適配器模塊支持，允許他們在這種靜態(tài)視頻上訓(xùn)練，同時(shí)保留視頻模型的運(yùn)動(dòng)先驗(yàn)。在測試時(shí)，研究團(tuán)隊(duì)去除運(yùn)動(dòng)適配器模塊，只保留訓(xùn)練好的空間適配器。這恢復(fù)了 T2V 模型的運(yùn)動(dòng)先驗(yàn)，同時(shí)遵循定制化 T2I 模型的空間先驗(yàn)。

　　研究團(tuán)隊(duì)在個(gè)性化、風(fēng)格化和條件生成等多種任務(wù)上展示了他們方法的有效性。在所有評估的場景中，研究團(tuán)隊(duì)的方法無縫地將定制化 T2I 模型的空間先驗(yàn)與由 T2V 模型提供的運(yùn)動(dòng)先驗(yàn)結(jié)合起來。

　　大語言模型（LLM）在推理過程中可以花費(fèi)額外的計(jì)算資源來生成中間思路，從而幫助產(chǎn)生更好的最終響應(yīng)。自從思維鏈（CoT）提出以來，許多此類的 System 2 技術(shù)相繼出現(xiàn)，比如重新表述和響應(yīng)（Rephrase and Respond）、System 2 注意力（System 2 Attention）和分支-解決-合并（Branch-Solve-Merge）。

　　在這項(xiàng)工作中，Meta FAIR 團(tuán)隊(duì)研究了自監(jiān)督方法，將 System 2 技術(shù)中的高質(zhì)量輸出“編譯”（蒸餾）回 LLM 生成的內(nèi)容中，而無需中間推理 token 序列，因?yàn)檫@些推理已被蒸餾到 System 1 中。

　　研究團(tuán)隊(duì)展示了幾種這樣的技術(shù)可以成功蒸餾，結(jié)果相比原始 System 1 性能有所改善，同時(shí)推理成本比 System 2 更低。團(tuán)隊(duì)認(rèn)為，System 2 蒸餾將成為未來可持續(xù)學(xué)習(xí)的 AI 系統(tǒng)的重要特性，使它們能夠?qū)?System 2 的能力集中在尚不能很好完成的推理任務(wù)上。

　　標(biāo)準(zhǔn) Transformer 架構(gòu)中的前饋（FFW）層隨著隱藏層寬度的增加會導(dǎo)致計(jì)算成本和激活內(nèi)存線性增加。稀疏混合專家（MoE）架構(gòu)通過將模型大小與計(jì)算成本分離，已成為解決這一問題的可行方法。最近發(fā)現(xiàn)的細(xì)粒度 MoE 縮放定律表明，更高的粒度可以帶來更好的性能。然而，由于計(jì)算和優(yōu)化的挑戰(zhàn)，現(xiàn)有的 MoE 模型僅限于少量專家。

　　為此，Google DeepMind 研究團(tuán)隊(duì)推出了 PEER（參數(shù)高效專家檢索），這是一種利用 product key 技術(shù)從大量小專家（超過一百萬）中進(jìn)行稀疏檢索的新型層設(shè)計(jì)。在語言建模任務(wù)上的實(shí)驗(yàn)表明，PEER 層在性能-計(jì)算權(quán)衡方面優(yōu)于密集的 FFW 和粗粒度 MoE。通過高效利用大量專家，PEER 解鎖了在保持計(jì)算效率的同時(shí)進(jìn)一步擴(kuò)展 Transformer 模型的潛力。

　　為提高模型性能，大語言模型（LLM）經(jīng)常會因數(shù)據(jù)或架構(gòu)變化而更新。在更新模型時(shí)，開發(fā)人員通常側(cè)重于提高整體性能指標(biāo)，而不太重視與先前模型版本的兼容性。然而，用戶通常會對與之交互的特定機(jī)器學(xué)習(xí)模型的功能和能力建立一個(gè)心智模型。每次更新時(shí)，他們都必須調(diào)整自己的心智模型——這是一項(xiàng)耗費(fèi)精力的任務(wù)，可能會導(dǎo)致用戶不滿。

　　在實(shí)踐中，微調(diào)下游任務(wù)適配器依賴于預(yù)訓(xùn)練的 LLM 基礎(chǔ)模型。當(dāng)這些基礎(chǔ)模型更新時(shí)，這些面向用戶的下游任務(wù)模型就會出現(xiàn)實(shí)例退化（Instance regression）或負(fù)向翻轉(zhuǎn)（Negative flips）的情況。即使下游任務(wù)訓(xùn)練程序保持不變，這種情況也會發(fā)生。

　　在這項(xiàng)工作中，來自蘋果公司、加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)希望通過兩種方式為用戶提供無縫的模型更新。首先，他們?yōu)榕c先前模型版本的兼容性概念提供了評估指標(biāo)，特別適用于生成任務(wù)，但也適用于判別任務(wù)。他們觀察了不同任務(wù)和模型更新上不同模型版本之間的退化和不一致性。其次，他們提出了一種訓(xùn)練策略，從而盡量減少模型更新中不一致的情況，其中包括訓(xùn)練一個(gè)兼容性模型，該模型可以增強(qiáng)任務(wù)微調(diào)語言模型。從 Llama 1 到 Llama 2，他們減少了多達(dá) 40% 的負(fù)向翻轉(zhuǎn)——即以前正確的實(shí)例現(xiàn)在被錯(cuò)誤地預(yù)測出來。

　　我們能否像根據(jù)文字描述創(chuàng)建圖像一樣，只用一個(gè)預(yù)期行為的演示作為提示，就毫不費(fèi)力地為一個(gè)智能體（agent）生成控制策略？

　　在這項(xiàng)工作中，來自馬里蘭大學(xué)、清華大學(xué)和加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)，提出了一種新穎的策略參數(shù)生成器——Make-An-Agent，它利用條件擴(kuò)散模型，實(shí)現(xiàn)從行為到策略的生成。

　　該策略生成器以編碼軌跡信息的行為嵌入為指導(dǎo)，合成潛在參數(shù)表示，然后將其解碼為策略網(wǎng)絡(luò)。通過對策略網(wǎng)絡(luò)檢查點(diǎn)及其相應(yīng)軌跡的訓(xùn)練，生成模型在多個(gè)任務(wù)上都表現(xiàn)出了卓越的通用性和可擴(kuò)展性，并在未見過的任務(wù)上具有很強(qiáng)的泛化能力，只需少量的演示作為輸入就能輸出表現(xiàn)良好的策略。

　　他們展示了其在不同領(lǐng)域和任務(wù)上的功效和效率，包括不同的目標(biāo)、行為，甚至不同的機(jī)器人操縱器。除了模擬，他們還將 Make-An-Agent 生成的策略直接部署到真實(shí)世界的機(jī)器人上來執(zhí)行運(yùn)動(dòng)任務(wù)。

　　最近，視頻擴(kuò)散模型（VDM）因其在生成連貫逼真的視頻內(nèi)容方面的顯著進(jìn)步而備受關(guān)注。然而，同時(shí)處理多個(gè)幀特征，再加上模型體積龐大，會導(dǎo)致高延遲和大量內(nèi)存消耗，阻礙了其更廣泛的應(yīng)用。

　　訓(xùn)練后量化（PTQ）是減少內(nèi)存占用和提高計(jì)算效率的有效技術(shù)。與圖像擴(kuò)散不同，來自北京航空航天大學(xué)和美團(tuán)的研究團(tuán)隊(duì)觀察到，整合到所有幀特征中的時(shí)間特征表現(xiàn)出明顯的偏斜性。此外，他們還研究了視頻擴(kuò)散模型激活過程中通道間的顯著差異和不對稱，這導(dǎo)致單個(gè)通道的量化水平覆蓋率較低，增加了量化的難度。

　　為解決這些問題，他們推出了首個(gè)為視頻擴(kuò)散模型量身定制的 PTQ 策略——QVD。具體來說，他們提出了專為時(shí)間特征設(shè)計(jì)的高時(shí)間可辨別性量化（HTDQ）方法，該方法保留了量化特征的高可辨別性，為所有視頻幀提供精確的時(shí)間指導(dǎo)。此外，他們還提出了散射信道范圍整合（SCRI）方法，旨在提高各個(gè)信道量化水平的覆蓋率。各種模型、數(shù)據(jù)集的實(shí)驗(yàn)驗(yàn)證證明了 QVD 在各種指標(biāo)方面的有效性。特別是，QVD 在 W8A8 上實(shí)現(xiàn)了近乎無損的性能降低，在 FVD 方面比現(xiàn)有方法高出 205.12。

　　在評估大語言模型（LLM）的長上下文能力時(shí)，從原始長文檔中識別與用戶查詢相關(guān)的內(nèi)容是任何 LLM 回答基于長文本的問題的重要前提。

　　來自上海 AI Lab 的研究團(tuán)隊(duì)提出了 NeedleBench 框架，其由一系列挑戰(zhàn)性逐漸增加的任務(wù)組成，用于評估雙語長文本能力，跨越 4k、8k、32k、128k、200k、1000k 等多個(gè)長度區(qū)間和不同深度范圍，允許在不同文本深度區(qū)域策略性地插入關(guān)鍵數(shù)據(jù)點(diǎn)，從而嚴(yán)格測試模型在不同上下文背景下的檢索和推理能力。他們使用 NeedleBench 框架來評估領(lǐng)先的開源模型在雙語長文本中識別與問題相關(guān)的關(guān)鍵信息并應(yīng)用這些信息進(jìn)行推理的能力。此外，為模擬現(xiàn)實(shí)世界長上下文任務(wù)中可能出現(xiàn)的邏輯推理挑戰(zhàn)的復(fù)雜性，他們還提出了 Ancestral Trace Challenge（ATC），從而為評估 LLM 處理復(fù)雜長上下文情況提供了一種簡單的方法。

　　研究結(jié)果表明，當(dāng)前的 LLM 難以應(yīng)對現(xiàn)實(shí)世界中長上下文任務(wù)中可能出現(xiàn)的復(fù)雜邏輯推理挑戰(zhàn)，在實(shí)際長上下文應(yīng)用中還有很大的改進(jìn)空間。

　　在這項(xiàng)工作中，來自昆侖萬維的研究團(tuán)隊(duì)提出了擴(kuò)散 Transformer（DiT）的稀疏版本——DiT-MoE，其具有可擴(kuò)展性，與稠密網(wǎng)絡(luò)相比具有競爭力，同時(shí)表現(xiàn)出高度優(yōu)化的推理能力。

　　DiT-MoE 包括兩個(gè)簡單的設(shè)計(jì)：共享專家路由和專家級平衡損失，從而捕捉共同知識并減少不同路由專家之間的冗余。當(dāng)應(yīng)用于條件圖像生成時(shí)，對專家專業(yè)化的深入分析獲得了一些有趣的觀察結(jié)果：（1）專家選擇表現(xiàn)出對空間位置和去噪時(shí)間步長的偏好，而對不同類別的條件信息不敏感；（2）隨著 MoE 層的深入，專家選擇逐漸從特定空間位置轉(zhuǎn)向分散和平衡。（3）專家專業(yè)化在早期時(shí)間步趨于集中，而在一半之后則逐漸趨于均勻。研究團(tuán)隊(duì)將其歸因于先對低頻空間信息建模，再對高頻復(fù)雜信息建模的擴(kuò)散過程。

　　基于上述指導(dǎo)，一系列 DiT-MoE 在實(shí)驗(yàn)中取得了與稠密網(wǎng)絡(luò)相當(dāng)?shù)男阅?，但在推理過程中所需的計(jì)算負(fù)荷卻小得多。更令人鼓舞的是，他們利用合成圖像數(shù)據(jù)證明了 DiT-MoE 的潛力，在 512×512 分辨率設(shè)置下，以 16.5B 參數(shù)縮放擴(kuò)散模型的 SoTA FID-50K 得分為 1.80。

　　當(dāng)前的文本到視頻合成模型展示了從文本描述生成連貫、逼真的復(fù)雜視頻的能力。然而，大多數(shù)現(xiàn)有模型缺乏對相機(jī)運(yùn)動(dòng)的細(xì)粒度控制，而這對于內(nèi)容創(chuàng)作天博體育、視覺效果和 3D 視覺等下游應(yīng)用至關(guān)重要。

　　最近，一些新方法展示了生成具有可控相機(jī)姿態(tài)的視頻的能力——這些技術(shù)利用了預(yù)訓(xùn)練的基于 U-Net 的擴(kuò)散模型。然而，對于基于 transformer 的新型視頻擴(kuò)散模型（可聯(lián)合處理空間和時(shí)間信息），現(xiàn)有方法均無法實(shí)現(xiàn)攝像機(jī)控制。

　　為此，多倫多大學(xué)以及 Snap 研究團(tuán)隊(duì)提出使用一種類似 ControlNet 的調(diào)控機(jī)制來控制視頻 transformer 進(jìn)行 3D 相機(jī)控制，該機(jī)制結(jié)合了基于 Plucker 坐標(biāo)的時(shí)空相機(jī)嵌入。在對 RealEstate10K 數(shù)據(jù)集進(jìn)行微調(diào)后，該方法在可控視頻生成方面達(dá)到了 SOTA。

　　這項(xiàng)工作首次實(shí)現(xiàn)了對基于 transformer 的視頻擴(kuò)散模型進(jìn)行相機(jī)控制。

　　多模態(tài)大語言模型（MLLM）近年來成為學(xué)術(shù)界和工業(yè)界的一個(gè)重要焦點(diǎn)。盡管它們在一般多模態(tài)場景中表現(xiàn)出色天博體育，但在視覺上下文中的數(shù)學(xué)問題解決能力仍然不足。

　　為此，來自香港中文大學(xué)和北京大學(xué)的研究團(tuán)隊(duì)及其合作者，確定了 MLLM 中的三個(gè)關(guān)鍵領(lǐng)域需要改進(jìn)：數(shù)學(xué)圖表的視覺編碼、圖表與語言的對齊以及數(shù)學(xué)推理能力。這提出了對大規(guī)模、高質(zhì)量數(shù)據(jù)和視覺數(shù)學(xué)訓(xùn)練管道的迫切需求。研究團(tuán)隊(duì)提出了首個(gè)針對 MLLM 的數(shù)學(xué)視覺指令微調(diào)范式——MAVIS，其涉及一系列數(shù)學(xué)視覺數(shù)據(jù)集和專門的 MLLM。

　　針對這三個(gè)問題，MAVIS 包含了三個(gè)逐步的訓(xùn)練階段。首先，研究團(tuán)隊(duì)策劃了 MAVIS-Caption，由 558K 圖表-標(biāo)題對組成，通過對比學(xué)習(xí)微調(diào)一個(gè)數(shù)學(xué)專用的視覺編碼器（CLIP-Math），旨在改進(jìn)圖表的視覺編碼。其次，團(tuán)隊(duì)利用 MAVIS-Caption，通過投影層將 CLIP-Math 與大語言模型（LLM）對齊，增強(qiáng)數(shù)學(xué)領(lǐng)域的視覺-語言對齊。第三，團(tuán)隊(duì)引入了 MAVIS-Instruct，包括 900K 精心收集和注釋的視覺數(shù)學(xué)問題，用于最終指令微調(diào) MLLM，提升數(shù)學(xué)推理能力。在 MAVIS-Instruct 中，團(tuán)隊(duì)為每個(gè)問題納入了完整的推理鏈（CoT），并最小化文本冗余，從而使模型更集中于視覺元素。

　　檢索增強(qiáng)生成（RAG）技術(shù)旨在減少大語言模型（LLM）中的幻覺。然而，LLM 仍可能產(chǎn)生與檢索內(nèi)容不符或相矛盾的信息。

　　為此，來自 Patronus AI 和 Contextual AI 的研究團(tuán)隊(duì)推出了一個(gè)最新的幻覺檢測 LLM——LYNX，其能夠?qū)?fù)雜的真實(shí)幻覺場景進(jìn)行高級推理。為了評估 LYNX，他們推出了一個(gè)包含來自各種現(xiàn)實(shí)領(lǐng)域的 15000 個(gè)樣本的全面幻覺評估基準(zhǔn) HaluBench。

上一篇 : 中國眼鏡定制：近視患者可以不戴眼鏡嗎？-新創(chuàng)森天博體育

. 下一篇 : 美集居全屋定制2024火遍全網(wǎng)裝修風(fēng)格分享原來家裝天博體育這么多樣！

天博體育Google DeepMind 推出文生視頻模型定制通用框架 Still-Moving｜大模型周報(bào)

推薦新聞

溫暖舒適的職場穿搭在這個(gè)秋天你值得擁有！

新手小白開店進(jìn)貨需要注意什么？

你的衣柜里面還缺這樣一件連衣裙！

什么樣的天氣可以穿黑絲黑色絲襪什么季節(jié)穿好看

黑色絲襪=低俗？不,呢大衣配黑絲也能成為時(shí)尚

毛呢大衣秋冬穿搭亮色毛呢大衣

天博體育Google DeepMind 推出文生視頻模型定制通用框架 Still-Moving｜大模型周報(bào)

推薦新聞

溫暖舒適的職場穿搭 在這個(gè)秋天你值得擁有！

新手小白開店進(jìn)貨需要注意什么？

你的衣柜里面還缺這樣一件連衣裙！

什么樣的天氣可以穿黑絲 黑色絲襪什么季節(jié)穿好看

黑色絲襪=低俗？不,呢大衣配黑絲也能成為時(shí)尚

毛呢大衣秋冬穿搭 亮色毛呢大衣

溫暖舒適的職場穿搭在這個(gè)秋天你值得擁有！

你的衣柜里面還缺這樣一件連衣裙！

什么樣的天氣可以穿黑絲黑色絲襪什么季節(jié)穿好看

黑色絲襪=低俗？不,呢大衣配黑絲也能成為時(shí)尚

毛呢大衣秋冬穿搭亮色毛呢大衣