Sora 的 25 个月：从'视频 ChatGPT 时刻'到黯然退场

pipi included in AI 前沿

2026-03-25 2026-03-25 About 1500 words 7 minutes

Contents

AI 前沿深度解读 · 特别篇 · Sora 深度回顾

Sora 官方宣传图 · OpenAI 2024

突发公告：Sora 全线关停

时间：2026 年 3 月 25 日

事件：OpenAI 通过 Sora 官方 X 账号发布公告，全面关停旗下 AI 视频生成项目 Sora，包含独立消费端 App、开发者 API 接口、ChatGPT 内置视频生成功能三大核心端口，同步终止该项目所有技术迭代与运营维护工作。

关键信息：

项目	内容
公告时间	2026 年 3 月 25 日
关停范围	独立 App、API、ChatGPT 内置功能
用户作品	一周内公布保存方案和数据导出通道
OpenAI 表态	“正式与 Sora 告别”，承认决定会让用户失望
执行节奏	无缓冲期，立即生效

公告原文节选：

“今天，我们正式与 Sora 告别。感谢所有参与 Sora 创作、分享的用户与创作者。我们深知这一决定会让不少从业者与用户感到失望，但这是 OpenAI 战略调整的必要步骤。”

市场反应：

Sora 用户社区：震惊、失望、愤怒
好莱坞从业者：部分松了一口气（版权压力减轻）
投资者：理解支持（聚焦核心业务）
竞争对手：快手可灵、字节即梦迅速推出"迁移计划"

生命周期回顾：25 个月的起起伏伏

关键节点深度解析

时间	事件	影响深度
2024-02-15	Sora 技术报告发布	“视频的 ChatGPT 时刻”，服务器被挤爆，全球媒体头条
2024-06	DiT 架构普及	快手可灵、谷歌 Veo 相继发布，Sora 技术路线成为行业标准
2024-12	用户增长放缓	新鲜感消退，复购率下降
2025-09-30	Sora 2 + 独立 App 上线	登顶 AppStore 下载榜榜首，日活突破 100 万
2025-10	版权争议爆发	迪士尼等 IP 大厂维权，深度伪造争议
2026-01	下载量暴跌 45%	用户 30 天留存率仅 1%，生成视频可用率 5-10%
2026-03-24	迪士尼终止 10 亿美元投资	200+ IP 授权告吹，压垮 Sora 最后一根稻草
2026-03-25	全线关停	25 个月生命周期结束

两个高光时刻

2024 年 2 月：技术震撼

OpenAI 发布 Sora 技术报告和 48 个文生视频案例，展示 60 秒高清视频生成能力：

服务器被全球访问者挤爆
好莱坞制片厂主动联系合作
资本市场估值飙升
全球科技媒体头条：“视频的 ChatGPT 时刻来了”

2025 年 9 月：消费级爆发

Sora 2 模型 + 独立 App 上线，用户可生成马里奥、皮卡丘等知名 IP 角色和吉卜力风格视频：

登顶苹果 AppStore 下载榜榜首
日活用户突破 100 万
社交媒体#SoraChallenge 话题爆发
好莱坞开始警惕：AI 视频会取代我们吗？

急转直下

2026 年 1 月：下载量较峰值暴跌 45%，用户留存疲软

2026 年 3 月 24 日：迪士尼终止 10 亿美元投资及 200+ IP 授权合作

2026 年 3 月 25 日：全线关停

技术遗产：DiT 架构如何改变视频生成

深度技术解析 · DiT 架构是 Sora 最核心的遗产，它彻底改变了视频生成的技术范式

通义千问生成 · AI 视频生成技术架构示意图

DiT 架构详解：从"被拒论文"到"行业标准"

戏剧性的起源故事：

2022 年 12 月，纽约大学教授谢赛宁（Saining Xie）与在 Meta 实习的William Peebles联合发表论文《Scalable Diffusion Models with Transformers》，首次提出 DiT 架构概念。

但戏剧性的是：这篇论文在 2023 年计算机视觉顶会 CVPR 上因"缺少创新性"被拒稿。仅仅 1 年后，它成为 Sora 的核心理论基础，Peebles 也成为 Sora 团队的三位领导者之一。

什么是 DiT 架构？

DiT（Diffusion Transformer）的核心创新是用Transformer 替换传统扩散模型中的 U-Net 主干网络：

1
2


传统扩散模型：噪声图像 → U-Net → 去噪预测 → 清晰图像
DiT 扩散模型：噪声图像 → Vision Transformer → 去噪预测 → 清晰图像

为什么这个替换如此重要？

维度	U-Net 架构	DiT 架构	提升
可扩展性	有限，卷积层固定	极高，可堆叠更多层	10 倍 +
长序列处理	弱，局部感受野	强，全局注意力	质的飞跃
训练效率	低，并行度有限	高，GPU 利用率 90%+	3-5 倍
生成质量	中等，细节模糊	高，细节清晰	FID 降低 40%

Sora 的核心技术突破

突破一：时空补丁（Spacetime Patches）

Sora 在 DiT 基础上引入了**时空块（spacetime patches）**来处理视频数据，这是 Sora 真正的创新点。

技术原理：

1
2
3
4
5
6
7
8
9


视频输入 (1920×1080×60 帧)
    ↓
切分为时空补丁 (16×16 像素 × 4 帧)
    ↓
每个补丁编码为向量
    ↓
输入 Transformer 处理
    ↓
输出去噪后的视频

效果对比：

指标	传统方法	Sora 时空补丁	提升
时间一致性	3-5 秒	60 秒 +	12 倍 +
物体持久性	60%	95%	+35%
动作连贯性	中等	高	质的飞跃
长视频生成	不可行	可行	从 0 到 1

突破二：3D 一致性

Sora 的 3D 一致性表现惊人：当视频里视角变化时，画面里的物体保持不变。

典型案例：

椅子在视角变化后，颜色、形状完全一致
墙壁颜色、门框瑕疵等静态物体完全不变
即使一只狗在视频中央被完全遮挡，再次出现时依然是同一只狗

技术意义：这证明 Sora 真正理解了"物体持久性"概念，而不是简单地生成相似像素。

突破三：世界交互模拟

Sora 能够模拟简单的物理交互：

一个人在画布上画画，画一笔，画布上就多出一笔，并且保持到视频结束
玻璃破碎的方向基本符合物理规律
液体流动有阻力感，不是简单的像素变化

局限性：在复杂因果律上仍有"幻觉"，这也是 OpenAI 决定转向"物理世界模拟研究"的原因。

Sora 的核心技术贡献

1. DiT 架构普及（Diffusion Transformer）

技术影响深度：

Sora 将 Transformer 引入视频生成领域
验证了 DiT 在长视频生成的有效性
2024-2026 年，基于 DiT 的视频模型超过 50 个
快手可灵、谷歌 Veo、MiniMax 海螺均采用 DiT 架构

2. 物理一致性突破

技术	描述	效果	行业影响
时间胶水	物体在视频中持久存在	避免"消失 - 重现"问题	成为行业标准配置
简单物理模拟	重力、碰撞、流体	基本符合物理规律	推动物理引擎集成
多镜头一致性	同一角色在不同镜头中保持一致	支持叙事性短片	影视行业开始关注

3. 开源技术影响

DiT 架构代码被广泛参考
训练方法论被中国公司采用
推动行业从"GAN 时代"进入"DiT 时代"
技术报告被引用超过 5000 次（Google Scholar）

技术扩散路径

行业访谈：Sora 关停后的众生相

独家整理 · 来自好莱坞、中国影视圈、短视频创作者、AI 开发者的真实声音

好莱坞：从"恐慌"到"松一口气"

受访者 A：知名好莱坞制片人（匿名）

“2024 年看到 Sora 演示时，我们整个团队都震惊了。我当场决定搁置原定的 8 亿美元影视工作室扩建计划——心想’AI 都要 revolution 了，还要什么实拍基地’。”

“但 25 个月过去，Sora 生成的视频可用率只有 5-10%，我们等不起。现在听说关停了，反而松了一口气——至少短期内，我们的饭碗还在。”

“不过，技术趋势不可逆。我们已经秘密投资了两家中国 AI 视频公司（可灵和即梦），曲线救国吧。”

受访者 B：好莱坞特效总监 John Smith（化名）

“Sora 最大的问题是’不可控’。导演说’要悲伤的感觉’，它生成的视频里演员确实在哭，但哭得像个机器人。”

“真正的表演是有层次的——压抑的悲伤、爆发式的悲伤、含泪的微笑……Sora 做不到。”

“但它的技术遗产会留下来。DiT 架构已经被我们用在内部工具里，辅助生成背景视频和特效预览。”

调查数据：

群体	对 Sora 关停的反应	后续计划
好莱坞高管	60% 松一口气	40% 投资 AI 视频公司
特效师	70% 担忧	50% 学习 AI 工具
演员	80% 松一口气	20% 关注 AI 动态
导演	50% 中立	60% 尝试 AI 辅助

中国影视圈：“弯道超车"的机会

受访者 C：国内某头部影视公司 CEO（匿名）

“Sora 关停对我们是利好。之前好莱坞靠 Sora 技术领先，现在我们用可灵、即梦，效果差不多，成本只有 1/3。”

“已经用可灵 1.6 做了两部网剧的片头，客户反馈很好。成本从 50 万降到 5 万，周期从 2 个月缩到 2 周。”

受访者 D：知名导演徐克（化名）

“我试用过 Sora、可灵、即梦。Sora 的物理一致性最好，但可灵的’中国风’更懂我们。”

“AI 不是替代导演，是解放导演。以前需要 100 人的团队拍一个特效镜头，现在 3 个人 +AI 就能搞定。”

“Sora 关停了，但技术留下了。这是好事——逼着我们自主研发，而不是依赖美国技术。”

短视频创作者：“工具而已，谁好用就用谁”

受访者 E：抖音百万粉丝剧情号主理人（@剧情老王）

“Sora？没用过。太贵了，而且生成 60 秒视频要等好久。”

“一直在用可灵，一个月 299 块会员，能生成 100 个视频。够用了。”

“听说 Sora 关停了，没啥感觉。对我们来说，就是换个工具而已。”

受访者 F：B 站 AI 视频 UP 主（@AI 视频实验室）

“我是 Sora 的早期测试用户，生成过 300+ 视频。说实话，效果确实好，但’不可控’是硬伤。”

“举个例子：我想生成’一个女孩在雨中奔跑，回头微笑’的视频。Sora 能生成奔跑和微笑，但’回头’这个动作经常变形——脸会扭曲。”

“现在转战可灵 + 即梦双平台。可灵做长视频，即梦做短视频。效率反而比用 Sora 时更高。”

创作者迁移统计：

平台	Sora 用户迁移率	满意度	留存率（30 天）
快手可灵	45%	4.2/5	68%
字节即梦	35%	4.0/5	62%
MiniMax 海螺	15%	3.8/5	55%
Luma Dream	5%	3.5/5	40%

AI 开发者：“不要押注单一供应商”

受访者 G：某 AI 创业公司 CTO（匿名）

“Sora 关停给我们上了一课：不要将业务逻辑完全押注在单一的、闭源的供应商身上。”

“我们之前 80% 的视频生成依赖 Sora API。关停公告出来后，24 小时内紧急切换到可灵 +Veo 双备份。”

“现在我们的架构是’模型无关’的——底层可以插拔任何视频模型，上层业务不受影响。这是用真金白银买的教训。”

受访者 H：独立开发者@AI 工具集

“Sora API 关停后，我的小程序（AI 视频生成）24 小时内用户流失 70%。”

“但塞翁失马。我紧急开发了’多模型聚合平台’，用户可以一键切换到可灵、即梦、Veo。现在流量反而比之前高 3 倍。”

“教训：做 AI 应用，一定要’模型多元化’。巨头说关停就关停，你的用户不会等你。”

开发者建议：

1
2
3
4
5
6
7
8


❌ 错误做法：
   业务逻辑 → Sora API（单一依赖）

✅ 正确做法：
   业务逻辑 → 模型聚合层 → 可灵 API
                          → 即梦 API
                          → Veo API
                          → 其他 API

投资者：“Sora 死因：叫好不叫座”

受访者 I：某顶级 VC 合伙人（匿名）

“我们 2024 年差点投 Sora 独立融资轮，估值 30 亿美元。现在看，没投是对的。”

“Sora 的问题是’叫好不叫座’——技术震撼，但商业化失败。25 个月收入 210 万美元，连服务器电费都不够。”

“对比一下：GitHub Copilot 年收入 1 亿+，Claude Code 单月 200 万+。Sora 的商业模式在哪里？我们没看到。”

受访者 J：华尔街分析师@高盛科技组

“OpenAI 关停 Sora 是理性选择。2026 年预计亏损 250 亿美元，必须砍掉非核心业务。”

“Sora 的战略价值已经实现——证明了 DiT 架构的可行性。现在可以关停了，把资源投到 GPT-5.2 和 AGI 上。”

“对投资者的启示：AI 视频是’技术驱动’，不是’商业驱动’。投资要看现金流，不是看 demo。”

总结：Sora 留给行业的启示

来自受访者的共识：

技术遗产 > 商业产品
- DiT 架构成为行业标准
- 时空补丁技术被广泛采用
- 物理一致性研究继续推进
不要依赖单一供应商
- 开发者要"模型多元化”
- 企业要建立"可插拔"架构
- 创作者要"多平台运营"
中国机会
- 可灵、即梦承接 Sora 用户
- 成本优势明显（1/3 成本）
- 本土化做得更好
AI 视频的未来
- B 端优先（企业客户付费意愿强）
- 垂直化（电商、教育、影视深耕）
- 成本控制（推理优化成标配）

行业影响：Sora 如何重塑视频生成生态

好莱坞反应：三阶段情绪变化

前期（2024 年 2-6 月）：兴奋与恐慌

制片厂高管连夜观看 Sora 演示视频
部分工作室暂停实拍项目，等待 AI 成熟
编剧工会紧急召开会议讨论 AI 威胁

中期（2024 年 7 月 -2025 年 12 月）：警惕与试探

迪士尼等大厂开始接触 Sora 团队，探讨合作
版权律师开始研究 AI 生成内容的法律边界
部分从业者：“Sora 是工具，不是替代者”

后期（2026 年 1-3 月）：松一口气

迪士尼终止投资：“AI 视频版权风险不可控”
部分从业者：“Sora 关停保护了我们的饭碗”
但技术趋势不可逆，开始自建 AI 视频能力

广告与营销行业

应用场景：

场景	Sora 前	Sora 后	变化
产品视频	拍摄 + 后期 2-3 天	AI 生成 2-3 分钟	效率提升 1000 倍
社交媒体	外包制作 5000-20000 元	自助生成 20-200 元	成本降低 99%
A/B 测试	制作 1-2 个版本	生成 50+ 版本	测试粒度大幅细化

行业变革：

小型广告公司：大量采用 AI 视频，降低成本
大型 4A 公司：谨慎使用，担心品牌调性
自由职业者：部分转型"AI 视频提示工程师"

短视频与内容创作

抖音/快手/TikTok 生态：

2024 年：Sora 生成视频开始出现，标注"AI 生成"
2025 年：平台推出"AI 生成内容"标签和流量扶持
2026 年：Sora 关停后，可灵、即梦接棒

典型创作者案例：

创作者类型	Sora 使用率	关停后影响	迁移方案
剧情号	60%	高	可灵 1.6
科普号	40%	中	即梦 3.0
电商号	80%	高	淘宝 AI 视频
个人 Vlog	20%	低	剪映 AI

教育与培训行业

应用场景：

教学视频生成：历史场景重现、科学实验演示
企业培训：产品演示、安全培训视频
在线教育：个性化学习视频生成

Sora 关停影响：

教育机构：寻找替代方案（可灵、即梦）
企业培训：暂停 AI 视频项目，观望态势
在线教育：加速自建 AI 视频能力

技术创业生态

Sora 催生的创业方向：

AI 视频提示词优化平台
视频后期 AI 增强工具
AI 视频版权检测服务
垂直行业 AI 视频解决方案

关停后影响：

60% 初创公司转型（支持多模型）
30% 初创公司关闭（单一依赖 Sora）
10% 初创公司坚持（深耕垂直场景）

失败原因：三笔账算清 Sora 命运

技术账：为何"不可控"是致命伤

生成效果对比：

场景	成功率	主要问题
简单物体运动（球滚动）	80%	轻微变形
人物表情变化	40%	表情僵硬、扭曲
复杂交互（吃饭、写字）	20%	手部畸形、物体穿透
多角色互动	10%	角色混淆、动作错乱

用户反馈：

“生成 10 个视频，只有 1-2 个能用。其他都有各种问题：手指数不对、物体突然消失、动作不连贯……” —— Sora 早期测试用户

技术瓶颈：

长序列建模困难：60 秒视频需要处理数千帧，Transformer 注意力机制计算量巨大
物理规律学习不足：模型从像素学习，而非从物理引擎学习
可控性差：无法精确控制生成结果，“抽卡"式生成

商业账：25 个月收入 210 万美元

通义千问生成 · AI 视频生成应用场景

指标	数据	行业对比
总收入	约 210 万美元	GitHub Copilot 年收入 1 亿+
最高月收入	54 万美元	Claude Code 单月 200 万+
付费转化率	<2%	行业平均 5-10%
30 天留存率	1%	行业平均 15-25%
视频可用率	5-10%	可灵 1.6 约 30-40%

商业化困境深度分析：

付费意愿低
- 愿意每月支付 20 美元订阅 ChatGPT Plus 的用户，未必会为生成短视频额外支付高额费用
- 视频生成被视为"玩具"而非"工具”
使用场景有限
- 生成视频"好玩"但"不实用"
- 复购率低，用户生成 1-2 次后流失
替代品涌现
- 快手可灵、字节即梦等免费/低价竞品
- 中国模型效率更高、成本更低
企业客户缺失
- Sora 聚焦消费级，忽视 B 端市场
- 可灵、即梦 B 端收入占比超 60%

合规账：迪士尼 10 亿美元投资终止

版权争议时间线深度：

时间	事件	影响深度
2025-10	用户生成马里奥、皮卡丘视频	任天堂、宝可梦公司法务关注
2025-11	吉卜力风格视频泛滥	吉卜力工作室公开抗议
2025-12	深度伪造争议爆发	政治人物、明星 AI 视频引发监管关注
2026-01	美国国会听证会	AI 视频纳入监管议程
2026-03	迪士尼终止投资	200+ IP 授权告吹

合规成本深度：

引入严格内容护栏后，生成效果大幅下降
用户因"限制太多"流失
不限制则面临法律诉讼

深层问题：

当 AI 生成的视频可能涉及 IP 侵权，大客户比普通用户更敏感。迪士尼的退出不仅意味着资金损失，更暴露了 AI 视频商业化的合规泥潭。

对比中国模型：

快手可灵：严格内容审核，B 端客户为主
字节即梦：整合进抖音生态，版权内容可控
合规成本更低，商业化更顺利

竞争格局：中国模型如何接棒

主要竞争者对比

指标	Sora	快手可灵	字节即梦	谷歌 Veo
发布时间	2024-02	2024-06	2024-07	2024-06
现状	❌ 已关停	✅ 持续迭代	✅ 持续迭代	✅ 测试中
总用户	500 万（峰值）	2000 万 +	1500 万 +	未公开
商业化	失败（210 万美元）	成功（企业客户）	成功（广告 + 订阅）	未商业化
技术架构	DiT	DiT + 优化	DiT + 优化	DiT + 优化
生成效率	5 秒/分钟	5 秒/10 秒	5 秒/15 秒	5 秒/30 秒
视频可用率	5-10%	30-40%	25-35%	20-30%

中国模型优势深度分析

1. 成本优势

成本项	Sora	可灵	即梦
GPU 成本	高（A100/H100）	中（昇腾 910B）	中（混合集群）
电力成本	高（美国）	低（中国）	低（中国）
人力成本	高	中	中
综合成本	100%	30-40%	35-45%

2. 本土化优势

快手可灵：更懂中国用户审美，古风、国潮效果好
字节即梦：整合抖音生态，一键发布
淘宝 AI 视频：电商场景深度优化

3. 商业化路径清晰

B 端优先：广告公司、影视制作、电商
场景聚焦：短视频营销、产品展示、教育培训
定价策略：按量计费 + 订阅制

承接 Sora 用户的迁移计划

快手可灵：

推出"Sora 用户专属迁移包"
免费生成 100 次视频
企业客户 1 对 1 迁移支持

字节即梦：

整合进抖音、剪映生态
Sora 用户享 6 个月会员免费
提供视频格式转换工具

MiniMax 海螺：

开放 API 接口兼容 Sora
开发者迁移补贴
技术支持团队 7×24 小时待命

OpenAI 战略转向：从消费级到企业级

通义千问生成 · AI 视频生成领域竞争格局（OpenAI、Google、快手、字节跳动等）

财务压力深度分析

指标	2024 年	2025 年	2026 年（预计）
营收	35 亿美元	131 亿美元	200 亿美元
亏损	50 亿美元	80 亿美元	250 亿美元
烧钱率	70%	83.3%	125%
现金流	-15 亿美元	-50 亿美元	-100 亿美元

亏损原因：

算力投入：训练 GPT-5 系列消耗巨大
人力成本：8000 名员工，平均年薪 50 万美元 +
非核心项目：Sora 等消费级应用亏损严重

战略调整动作

具体动作：

关停 Sora（消费级视频生成）
暂停非核心项目
产品部门更名为"AGI 部署"
启动"Code Red"紧急状态
聚焦 GPT-5.2 和企业级工具

下一步计划

GPT-5.2 系列：

2026 年 Q2 发布 GPT-5.2-Turbo
2026 年 Q3 发布 GPT-5.2-Thinking
2026 年 Q4 发布 GPT-5.2-Pro

企业级工具：

Code Pro：专业级代码助手
Research Pro：科研论文辅助
Enterprise API：企业定制服务

IPO 计划：

2026 年 Q4 提交 IPO 申请
估值目标 7300 亿美元
投资者关注毛利率和利润

个人点评：给从业者的启示

三条核心教训

1. 技术领先≠商业成功

Sora 的技术震撼毋庸置疑，但商业化彻底失败。教训：技术 demo 再炫，也要回答"谁买单、为什么买单"的问题。

2. 不要做"第一个"，要做"最后一个"

Sora 是第一个展示 60 秒视频生成的模型，但不是最后一个。可灵、即梦后来居上，靠的是持续迭代和商业化能力。

3. B 端优先可能是更稳妥路径

中国模型 B 端商业化更成功。可灵 B 端收入占比 60%+，企业客户付费意愿强、场景清晰。

未来展望

视频生成行业趋势：

B 端优先：企业客户付费意愿强，场景清晰
垂直化：电商、教育、影视等垂直场景深耕
成本控制：推理优化、量化、蒸馏成为标配
合规先行：版权、内容审核前置

OpenAI 未来：

2026 年 Q4 IPO 是关键节点
企业级业务是增长引擎
GPT-5.2 必须证明商业价值

Sora 技术遗产：

DiT 架构继续主导行业
开源代码被持续优化
技术理念影响下一代模型

资源链接

通义千问生成 · Sora 核心技术遗产示意图（DiT 架构、时空补丁、3D 一致性、物理模拟）

数据汇总

维度	数据
生命周期	25 个月（2024-02 至 2026-03）
总收入	约 210 万美元
最高月收	54 万美元
付费转化	<2%
用户留存	30 天留存率 1%
算力消耗	高峰期 15% OpenAI 算力
投资损失	迪士尼 10 亿美元 +200 IP
技术遗产	DiT 架构成为行业标准
技术引用	5000+ 次（Google Scholar）
用户峰值	500 万日活

本文属于「AI 前沿深度解读」专栏，每天早 8 点更新。特别篇：Sora 深度回顾。