Open-Sora:开源 Sora 复现方案,成本降低 46%,序列扩充至近百万

Colossal-AI开源了完整的Sora复现架构方案Open-Sora,声称可降低46%复现成本,并将模型训练输入序列长度扩充至819K patches。

Sora 算法复现方案

在Sora的技术报告中,Sora使用了一个视频压缩网络将各种尺寸的视频压缩成一个隐空间(latent space)的时空块序列(a sequence of patial temporal patch),然后使用了Diffusion Transformer进行去噪,最后进行解码生成视频。

Open-Sora将Sora可能使用的训练pipeline归纳为下图。

目前Open-Sora已涵盖:

性能

以在单台H800 SXM 8*80GB GPU上使用DiT-XL/2模型的性能测试为例。在600K的序列长度时,Open-Sora的方案比基线方案有40%以上的性能提升和成本降低。

Open-Sora 开源地址:https://github.com/hpcaitech/Open-Sora

未经允许不得转载:岩猫星空网 » Open-Sora:开源 Sora 复现方案,成本降低 46%,序列扩充至近百万