在线咨询
专属客服在线解答,提供专业解决方案
声网 AI 助手
您的专属 AI 伙伴,开启全新搜索体验

OpenAI Sora与 AI 短视频生成

本文介绍了迪士尼与OpenAI达成里程碑式战略合作的重大新闻。并解读了Sora作为“世界模拟器”的核心技术原理——从视频压缩、时空块提取到基于扩散变换器的生成与控制机制,揭示了其实现三维一致性、长期连贯性等涌现能力的技术基础,展现了AI如何从工具演变为理解并模拟物理世界规律的新范式。

2025年12月11日,全球娱乐巨头华特迪士尼公司与人工智能先锋OpenAI共同宣布达成一项为期三年的战略合作与内容授权协议。迪士尼不仅成为OpenAI旗下视频生成平台Sora的首个主要内容授权合作伙伴,还将进行10亿美元的股权投资。这是大型娱乐公司首次以如此规模拥抱生成式人工智能

 

一. 10亿美元赌注与200个IP开放

在消息公布当天,迪士尼股价上涨约2%,市场用真金白银为这笔交易投下了初步的信任票。

根据双方公开的协议内容,迪士尼将在未来三年内,将旗下超过200个来自迪士尼、漫威、皮克斯和《星球大战》的经典角色授权给Sora平台使用。

从米老鼠、艾莎、钢铁侠到达斯·维达,这些全球认知度最高的虚拟角色将首次大规模进入生成式AI的创作生态。

这项协议有几个重要细节值得注意。首先,授权范围不包括任何真人演员的肖像或声音授权,这是对现实世界中创作者权利的基本尊重。其次,迪士尼的10亿美元股权投资不仅仅是一次简单的财务投资,还包括获得未来额外购买股权的认股权证。

迪士尼首席执行官罗伯特·艾格表示:“人工智能的快速发展是我们行业的一个重要时刻。” “通过与OpenAI的合作,我们将以审慎、负责任的方式,借助生成式AI扩展故事叙述的触达范围。”

 

二. Sora革命:从视频生成器到“世界模拟器”

理解这次合作的意义,必须首先理解Sora究竟是什么。今年9月,OpenAI推出了新一代音频、视频生成模型Sora 2。

与初代相比,Sora 2不仅能够生成更高质量的视频,还首次实现了音视频同步生成。然而,Sora的真正突破远不止技术参数的提升。

根据OpenAI产品研究负责人Bill Peebles的说法:“Sora是一个世界模拟器,不是一个生成器。” 这意味着Sora的核心定位已从传统的视频生成工具转向对世界运行规律的理解与模拟

Sora的工作原理

Sora是一个扩散变换器模型,用于生成可变持续时间、宽高比和分辨率的视频和图像。其核心工作流程可分为三个主要技术阶段:视频压缩网络时空块提取与变换器训练、以及文本条件化生成

1) 视频压缩与潜在表示

原始视频数据首先通过一个由编码器和解码器组成的视频压缩网络进行处理。

  • 编码器:将高维的原始视频帧(例如,分辨率为 1920×1080 的RGB序列)映射到一个低维的潜在空间。此过程大幅减少数据维度,同时保留视频的视觉与动态信息,为后续的高效训练提供基础。

  • 潜在表示:编码器输出的压缩潜在表示,构成了后续变换器模型处理的基本单元。在推理阶段,解码器负责将生成的潜在表示转换回像素空间,形成最终视频。

2) 时空块与变换器架构

这是Sora架构的核心创新。模型在压缩后的潜在空间内进行操作,而非直接在像素空间。

2.1)时空块构建

    • 对于一个压缩的潜在视频(其形状通常为 [F, H, W, C],分别代表帧数、高度、宽度、通道数),模型将其在时间和空间两个维度上,切割成一个个小的时空块
    • 每个时空块是一个四维张量,包含了局部区域在连续几帧内的时空信息。这是模型能够直接处理和理解视频动态的基本“词汇”单元。

2.2)变换器处理

  • 这些时空块被展平为向量序列,并输入一个扩散变换器模型。
  • 变换器的作用是学习这些时空块在序列中的统计关系,从而建模视频内容在时空维度上的复杂分布。通过在海量视频数据上训练,变换器学习到从自然世界动态到抽象视觉概念的映射关系。

3) 文本条件化生成与控制

Sora的生成过程是高度可控的,主要通过以下机制实现:

3.1)文本条件化

  • 用户提供的文本提示词,首先通过一个预训练的文本编码器(例如,与CLIP或DALL·E 3相似的T5模型变体)转换为嵌入向量。
  • 这些文本嵌入被作为条件信息,在整个扩散去噪过程中注入到变换器模型中。这使得模型在每一步去噪预测时,都以文本描述为指导,确保生成内容与提示语义对齐。

3.2)其他控制方式

除了文本,Sora的架构支持以多种输入作为生成条件,例如预存图像、视频或深度图。这些输入通过相应的编码器被转化为与时空块序列结构一致的潜在表示,从而实现对生成视频内容、风格或构图布局的精确控制。

4)作为“世界模拟器”的涌现能力

OpenAI在报告中指出,当模型在大规模数据上训练时,无需显式编程,即能展现出复杂的涌现能力,这构成了“世界模拟器”论述的基础:

  • 三维一致性:模型能生成具有动态摄像机移动(如推进、平移、环绕)的视频,意味着其潜在表示自发地维持了三维场景的几何一致性。

  • 长期连贯性:尽管采用块式结构,模型能保持角色、物体和背景风格在较长视频持续时间内的稳定性,模拟了长期依赖关系。

  • 简单物理交互模拟:模型能够生成一些符合基本物理规律(如物体破碎、流体运动、角色移动)的动态,尽管这并非基于精确的物理引擎计算,而是从训练数据中学习到的统计规律再现。

  • 数字世界模拟:模型能够逼真地渲染类似视频游戏场景的内容,包括对其中角色和动态的控制。

 

总结而言,Sora是一个在视频压缩潜在空间中操作的扩散变换器模型。它通过将视频分解为时空块进行学习,并在文本等多模态条件的严格控制下进行生成。其涌现出的模拟三维空间、动态和部分物理现象的能力,源于在海量多样化视频数据上对时空块统计规律的规模化学习。

在声网,连接无限可能

想进一步了解「对话式 AI 与 实时互动」?欢迎注册,开启探索之旅。

本博客为技术交流与平台行业信息分享平台,内容仅供交流参考,文章内容不代表本公司立场和观点,亦不构成任何出版或销售行为。