還得是開源！潞晨Open-Sora技術(shù)道路公開，一鍵生成16秒720p視頻

發(fā)布時間：2024-06-19 文章來源：本站瀏覽次數(shù)：1208

16秒720p高清視頻，現(xiàn)在人人可免費一鍵生成！潞晨 Open-Sora 是一個致力于高效生產(chǎn)高質(zhì)量視頻的開源項目。自 3 月發(fā)布以來，該模型在 GitHub 上已獲得 17.5K 的星標。以下是潞晨 Open-Sora 技術(shù)路線的具體內(nèi)容：

引入視頻壓縮網(wǎng)絡：采用與 OpenAI 的 Sora 相同的方法，在時間維度上進行 4 倍壓縮，無需抽幀，可使用原始 FPS 生成視頻。
利用 2D VAE 知識：由于訓練 3D VAE 的成本較高，團隊嘗試讓模型重新利用在 2D VAE 中學習到的知識。他們提出了一個簡單的視頻壓縮網(wǎng)絡（即 VAE），首先在空間維度上實現(xiàn) 8x8 倍的壓縮，再從時間維度上壓縮 4 倍。
分三步訓練 VAE：
1. 前 380K 步：在 8 個 GPU 上訓練，凍結(jié) 2D VAE 的權(quán)重，只訓練 3D VAE 部分，即對時間維度的壓縮重建。訓練目標為對 2D VAE encoder 輸出的特征進行時間維度的壓縮重建，并添加一個 identity loss 使得新訓練的 3D VAE 輸出的特征盡可能和原始 2D VAE 的特征相似。
2. 接下來的 260K 步：移除掉 identity loss，繼續(xù)單獨訓練 3D VAE 部分。
3. 最后 540K 步：解凍 2D VAE 權(quán)重，訓練整個 VAE 模型來重建原始視頻。該階段在 24 個 GPU 上完成。其中前兩個階段的訓練數(shù)據(jù)使用 20%圖像和 80%視頻，視頻用 17 幀進行訓練；最后一個階段用 34 幀的隨機幀數(shù)視頻進行訓練，使 VAE 模型可以壓縮任意長度的視頻。

通過以上技術(shù)路線，潞晨 Open-Sora 能夠在保障模型輸出質(zhì)量的同時，降低計算資源的消耗，并實現(xiàn)多種功能，如支持輸出多種視頻寬高比等。如果你想了解更多關(guān)于潞晨 Open-Sora 的信息，可以訪問其 GitHub 主頁。潞晨Open-Sora可零門檻免費獲得模型權(quán)重、全套訓練代碼，沉浸式游戲、創(chuàng)意廣告、制作影視大片……都能來試試~

上一條：上�？萍加岸及l(fā)布一批新平...

下一條：我國多所高校加大力度培育...

還得是開源！潞晨Open-Sora技術(shù)道路公開，一鍵生成16秒720p視頻

還得是開源！潞晨Open-Sora技術(shù)道路公開，一鍵生成16秒720p視頻