Sora官方文档解读！一文带你了解Sora!

精选文章导航： PS：如需代注册帐号或代充值Chatgpt Plus会员，请添加站长客服微信：Dr9527001 备注gpts

类别	精选文章
Stable Diffsion	┃傻瓜式的云端SD(stable diffusion)部署教程 - 白嫖4090、无需代码、一键启动
Sora	┃Sora是什么？Sora怎么使用？Sora的原理是什么?
ChatGPT	┃ 【推荐】一键升级chatgpt4.0保姆级教程 ┃ 免科学上网使用官方GPT教程 ┃【保姆级教程】国内chatgpt账号如何注册？chatgpt4如何升级充值?
Onlyfans	┃ 【推荐】OnlyFans订阅保姆级教程 ┃ OnlyFans年龄验证如何解决 )┃
Midjourney	┃ 【推荐】Midjourney订阅教程 ┃ 【推荐】Midjourney注册教程 ┃
虚拟信用卡	┃ 【推荐】Wildcard虚拟信用卡开通教程 ┃
游戏云服务器一键部署	┃【推荐!】幻兽帕鲁腾讯云服务器10s一键部署保姆级教程┃雾锁王国新手指南！腾讯云10秒极速开服的雾锁王国服务器全自动部署教程┃雾锁王国新手指南！阿里云一键自动部署雾锁王国服务器联机教程！┃幻兽帕鲁阿里云服务器搭建保姆级教程!手把手教你部署Palworld专用服务器! ┃

今天给大家带来Sora官方文档解读，一起来看一下吧！

（PS：目前 openai 官方还未开放 sora 普通人使用权限，不过根据文生图模型 DALL·E 案例，一定是先给 ChatGPT Plus 付费用户使用，需要注册或者升级 GPT Plus 可以看这个教程: 纯干货！国内chatgpt账号如何注册？如何升级充值到chatgpt4？，一分钟完成升级）

我们探索在视频数据上对生成模型进行大规模训练。具体来说，我们在不同时长、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用转换器架构，对视频和图像潜码的时空片段进行操作。我们最大的模型Sora能够生成一分钟的高保真视频。我们的研究结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条可行之路。

本技术报告的重点是:(1)我们将各种类型的视觉数据转化为统一表示法的方法，这种表示法可用于生成模型的大规模训练;(2)对Sora 的能力和局限性的定性评估。本报告不包括模型和实现细节。

之前的许多研究都使用了多种方法对视频数据进行生成建模，包括递归网络1,2,3生成对抗网络4,5,6,7自回归变换器8,9和扩散模型10,11,12等。这些作品通常只关注视觉数据的一个狭窄类别、较短的视频或固定大小的视频。Sora是一种通用的视觉数据模型–它可以生成不同时长、长宽比和分辨率的视频和图像，甚至可以生成整整一分钟的高清视频。

将可视化数据转化为Patches

我们从大型语言模型中汲取灵感，这些模型通过在互联网规模的数据上进行训练，获得了通用能力。13,14LLM范式的成功部分得益于token的使用，这些标记优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中，我们将考虑如何继承视觉数据生成模型的这些优点。LLM有文本标记，而Sora有视觉, patches。我们发现，对于在不同类型的视频和图像上训练生成模型来说，patches是一种高度可扩展且有效的表示方法。在高层次上，我们首先将视频压缩到低维潜在空间19中，然后将其分解为时空patches，从而将视频转化为patches。

视频压缩网络

我们训练了一个可以降低视觉数据的维度的网络20。该网络将原始视频作为输入，并输出经过时间和空间压缩的潜在表示。Sora 在此压缩潜空间内进行训练并生成视频。我们还训练了一个相应的解码器模型，将生成的潜像映射回像素空间。

时空潜(空间) patches

给定一个压缩输入视频，我们提取一系列时空patches 作为Transformer token。这一方案也适用于图像，因为图像只是单帧视频。我们基于补丁的表示法使Sora能够在不同分辨率、持续时间和长宽比的视频和图像上进行训练。在推理时，我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

缩放Transformer模型用于视频生成任务

Sora是一个扩散模型21,22,23,24,25;给定输入的噪声patches(以及文本提示等条件信息）后，经过训练，它能预测出原始的“干净” patches。26变压器在语言建模、13,14计算机视觉、15,16,17,18和图像生成等多个领域都表现出显著的可扩展特性。

在这项工作中，我们发现扩散变换器作为视频模型也能有效扩展。下面，我们展示了固定种子和输入的视频样本在训练过程中的对比。随着训练计算量的增加，样本质量明显提高。

视频时长、分辨率和宽高比等可变

以往的图像和视频生成方法通常会将视频调整大小、裁剪或修剪成标准尺寸，例如256x256分辨率的4秒视频。我们发现，在原始尺寸的数据上进行训练有几个好处。

采样灵活性

Sora 可以采样宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的所有视频。这样，Sora就能直接以原始长宽比为不同设备创建内容。它还能让我们在生成全分辨率内容之前，以较小的尺寸快速制作原型–所有这些都使用相同的模型。

改进取景和构图

我们根据经验发现，在原始长宽比的视频上进行训练可以改善构图和取景。我们将Sora 与将所有训练视频裁剪成正方形的模型版本进行了比较，这是训练生成模型时的常见做法。在正方形裁剪下训练的模型（左图）有时生成的视频只能看到主体的一部分。相比之下，Sora (右)生成的视频取景更好。

语言理解

训练文本到视频生成系统需要大量带有相应文字说明的视频。我们将 DALL-E3 中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕模型，然后用它为训练集中的所有视频制作文本字幕。我们发现，在高度描述性的视频字幕上进行训练可提高文本的保真度以及视频的整体质量。
与 DALL-E3类似，我们也利用 GPT 将简短的用户提示转化为较长的详细字幕，并发送给视频模型。这使得 Sora能够准确地按照用户提示生成高质量的视频。