Sora官方文档解读!一文带你了解Sora!

精选文章导航: PS:如需代注册帐号或代充值Chatgpt Plus会员,请添加站长客服微信:Dr9527001 备注gpts

类别 精选文章
Stable Diffsion 傻瓜式的云端SD(stable diffusion)部署教程 - 白嫖4090、无需代码、一键启动
Sora Sora是什么?Sora怎么使用?Sora的原理是什么?
ChatGPT 【推荐】一键升级chatgpt4.0保姆级教程 免科学上网使用官方GPT教程 【保姆级教程】国内chatgpt账号如何注册?chatgpt4如何升级充值?
Onlyfans 【推荐】OnlyFans订阅保姆级教程 OnlyFans年龄验证如何解决 )┃
Midjourney 【推荐】Midjourney订阅教程 【推荐】Midjourney注册教程
虚拟信用卡 【推荐】Wildcard虚拟信用卡开通教程
游戏云服务器一键部署 【推荐!】幻兽帕鲁腾讯云服务器10s一键部署保姆级教程雾锁王国新手指南!腾讯云10秒极速开服的雾锁王国服务器全自动部署教程雾锁王国新手指南!阿里云一键自动部署雾锁王国服务器联机教程!幻兽帕鲁阿里云服务器搭建保姆级教程!手把手教你部署Palworld专用服务器!

今天给大家带来Sora官方文档解读,一起来看一下吧!

(PS:目前 openai 官方还未开放 sora 普通人使用权限,不过根据文生图模型 DALL·E 案例,一定是先给 ChatGPT Plus 付费用户使用,需要注册或者升级 GPT Plus 可以看这个教程: 纯干货!国内chatgpt账号如何注册?如何升级充值到chatgpt4?,一分钟完成升级)

我们探索在视频数据上对生成模型进行大规模训练。具体来说,我们在不同时长、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用转换器架构,对视频和图像潜码的时空片段进行操作。我们最大的模型Sora能够生成一分钟的高保真视频。我们的研究结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条可行之路。

img

本技术报告的重点是:(1)我们将各种类型的视觉数据转化为统一表示法的方法,这种表示法可用于生成模型的大规模训练;(2)对Sora 的能力和局限性的定性评估。本报告不包括模型和实现细节。

之前的许多研究都使用了多种方法对视频数据进行生成建模,包括递归网络1,2,3生成对抗网络4,5,6,7自回归变换器8,9和扩散模型10,11,12等。这些作品通常只关注视觉数据的一个狭窄类别、较短的视频或固定大小的视频。Sora是一种通用的视觉数据模型–它可以生成不同时长、长宽比和分辨率的视频和图像,甚至可以生成整整一分钟的高清视频。

将可视化数据转化为Patches

我们从大型语言模型中汲取灵感,这些模型通过在互联网规模的数据上进行训练,获得了通用能力。13,14LLM范式的成功部分得益于token的使用,这些标记优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中,我们将考虑如何继承视觉数据生成模型的这些优点。LLM有文本标记,而Sora有视觉, patches。我们发现,对于在不同类型的视频和图像上训练生成模型来说,patches是一种高度可扩展且有效的表示方法。在高层次上,我们首先将视频压缩到低维潜在空间19中,然后将其分解为时空patches,从而将视频转化为patches。

image-20240307220808946

视频压缩网络

我们训练了一个可以降低视觉数据的维度的网络20。该网络将原始视频作为输入,并输出经过时间和空间压缩的潜在表示。Sora 在此压缩潜空间内进行训练并生成视频。我们还训练了一个相应的解码器模型,将生成的潜像映射回像素空间。

时空潜(空间) patches

给定一个压缩输入视频,我们提取一系列时空patches 作为Transformer token。这一方案也适用于图像,因为图像只是单帧视频。我们基于补丁的表示法使Sora能够在不同分辨率、持续时间和长宽比的视频和图像上进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

缩放Transformer模型用于视频生成任务

Sora是一个扩散模型21,22,23,24,25;给定输入的噪声patches(以及文本提示等条件信息)后,经过训练,它能预测出原始的“干净” patches。26变压器在语言建模、13,14计算机视觉、15,16,17,18和图像生成等多个领域都表现出显著的可扩展特性。

image-20240307220828606
在这项工作中,我们发现扩散变换器作为视频模型也能有效扩展。下面,我们展示了固定种子和输入的视频样本在训练过程中的对比。随着训练计算量的增加,样本质量明显提高。

image-20240307220917353

视频时长、分辨率和宽高比等可变

以往的图像和视频生成方法通常会将视频调整大小、裁剪或修剪成标准尺寸,例如256x256分辨率的4秒视频。我们发现,在原始尺寸的数据上进行训练有几个好处。

采样灵活性

Sora 可以采样宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的所有视频。这样,Sora就能直接以原始长宽比为不同设备创建内容。它还能让我们在生成全分辨率内容之前,以较小的尺寸快速制作原型–所有这些都使用相同的模型。

image-20240307220938534

改进取景和构图

我们根据经验发现,在原始长宽比的视频上进行训练可以改善构图和取景。我们将Sora 与将所有训练视频裁剪成正方形的模型版本进行了比较,这是训练生成模型时的常见做法。在正方形裁剪下训练的模型(左图)有时生成的视频只能看到主体的一部分。相比之下,Sora (右)生成的视频取景更好。

image-20240307220950837

语言理解

训练文本到视频生成系统需要大量带有相应文字说明的视频。我们将 DALL-E3 中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕模型,然后用它为训练集中的所有视频制作文本字幕。我们发现,在高度描述性的视频字幕上进行训练可提高文本的保真度以及视频的整体质量。
与 DALL-E3类似,我们也利用 GPT 将简短的用户提示转化为较长的详细字幕,并发送给视频模型。这使得 Sora能够准确地按照用户提示生成高质量的视频。

一个穿着绿色衣服和太阳帽的妇女在印度孟买愉快地散步,在冬季风暴期间

image-20240307221003766

使用图片和视频提示

上面和我们的落地案例页面中的所有结果都显示了文字生成视频的示例。但 Sora 还可以使用其他输入,如已有的图片或视频。这种功能使 Sora 能够执行各种图像和视频编辑任务–创建完美的循环视频、静态图像动画、向前或
向后延长视频时间等。

(PS:目前 openai 官方还未开放 sora 普通人使用权限,不过根据文生图模型 DALL·E 案例,一定是先给 ChatGPT Plus 付费用户使用,需要注册或者升级 GPT Plus 可以看这个教程: 纯干货!国内chatgpt账号如何注册?如何升级充值到chatgpt4?,一分钟完成升级)

为 DALL-E 图像制作动画

只要输入图像和提示,Sora 就能生成视频。下面我们将展示根据 DALL-E231 和 DALL-E 330 图像生成的视频示
例。

image-20240307221103007

扩展生成的视频

Sora 还能向前或向后扩展视频。下面是四段视频,它们都是从一段生成的视频开始向后延伸的。因此,这四段视频的开头都与其他视频不同,但结局都是一样的。

视频到视频的编辑

扩散模型为根据文本提示编辑图像和视频提供了大量方法。下面,我们将把其中一种方法 SDEdit32 应用于 Sora。
这项技术可使 Sora 在零拍摄的情况下转换输入视频的风格和环境。

视频无缝衔接

我们还可以使用 Sora 在两个输入视频之间逐步插值,在主题和场景构成完全不同的视频之间创建无缝过渡。在下面的示例中,中间的视频插接在左右相应的视频之间。

image-20240307221239951

图像生成功能

Sora 还能生成图像。我们通过在空间网格中排列高斯噪声斑块来生成图像,时间范围为一帧。该模型可生成不同大小的图像,分辨率可达 2048x2048.

image-20240307221314569

新兴模拟能力

我们发现,视频模型在经过大规模训练后,会表现出许多有趣的新兴能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性的出现并没有对三维、物体等产生任何明确的归纳偏差–它们纯粹是规模现象。

三维一致性

Sora 可以生成动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素会在三维空间中持续移动。

image-20240307221412190

长距离一致性和对象持久性

视频生成系统面临的一个重大挑战是在对长视频采样时保持时间一致性。我们发现,Sora 经常(但并非总是)能够有效地模拟短距离和长距离依赖关系。例如,即使人、动物和物体被遮挡或离开画面,我们的模型也能保持它们的存在。同样,它还能在单个样本中生成同一人物的多个镜头,并在整个视频中保持其外观。

image-20240307221442376

与真实世界互动

Sora 有时可以模拟一些影响世界状态的简单动作。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续,或者一个人可以吃汉堡并留下咬痕。

image-20240307221510903

模拟数字世界

Sora 还能模拟人工进程,视频游戏就是一个例子。Sora 可以通过基本策略同时控制 Minecraft 中的玩家,同时高保真地呈现世界及其动态。只需在 Sora 的提示字幕中提及”Minecraft”,就能零距离激发这些功能。

image-20240307221539246

这些功能表明,继续扩大视频模型的规模,是开发物理和数字世界以及其中的物体、动物和人的高功能模拟器的-条大有可为的途径。

局限性

作为一款模拟器,Sora 目前还存在许多局限性。例如,它不能准确模拟许多基本交互的物理现象,如玻璃碎裂。其他交互,如吃食物,并不总能产生正确的物体状态变化。我们在案例页面中列举了该模型的其他常见失效模式,例如在长时间样本中出现的不连贯现象或物体的自发出现。

image-20240307221621790

我们相信,Sora 今天所拥有的能力证明,不断扩大视频模型的规模,是开发物理和数字世界以及其中的物体、动物
和人的功能模拟器的一条大有可为的道路。

image-20240307221645574

(PS:目前 openai 官方还未开放 sora 普通人使用权限,不过根据文生图模型 DALL·E 案例,一定是先给 ChatGPT Plus 付费用户使用,需要注册或者升级 GPT Plus 可以看这个教程: 纯干货!国内chatgpt账号如何注册?如何升级充值到chatgpt4?,一分钟完成升级)


亲爱的读者你好,我是AI大镖客,一个专注于Ai领域的博士生。 最新原创的文章都先发布在公众号,欢迎关注哦~ 分享给你Ai变现、Ai工具使用的相关资讯。

扫描下方二维码,带你第一时间了解分享给你Ai变现、Ai工具使用的相关资讯以及ChatGPT、Sora、Midjourney最新动态!

AI大镖客公众号.jpg