LEOLEILS-BLOG

记录技术与思考

NVIDIA Nemotron 3 Super：吞吐量暴涨 7.5 倍的系统级狂飙

pipi published on 2026-03-25 included in AI 论文深潜

专栏：「AI 论文深潜」每天中午 12 点，深度解读一篇 AI 前沿论文。昨日预告的 NVIDIA Nemotron 3 Super 今日深度解析。论文基本信息项目内容模型名称 NVIDIA Nemotron 3 Super 发布时间 2026-03-10（GTC 2026）参数量 120B 总参数 / 12B 激活参数架构类型 LatentMoE + Mamba-2 + Transformer 混合架构上下文窗口 1M tokens（原生支持）开源协议 NVIDIA Nemotron Open Model License（可商用）技术报告 NVIDIA 官方博客一句话总结 NVIDIA Nemotron 3 Super 不是简单的参数堆砌，而是算法与硬件协同设计的系统级革命——通过 LatentMoE 隐空间专家架构、Mamba-2 状态空间模型、多 Token 预测（MTP）三大创新，在保持与 GPT-OSS-120B、Qwen3.5-122B 同等精度的前提下，实现 8k 输入/64k 输出场景下吞吐量暴涨 7.5 倍，为 Agentic AI 时代提供高性能、低成本的开源底座。研究背景 Agentic AI 时代的三重瓶颈 2026 年，开源大模型的竞争已脱离"堆参数量、刷榜单"的粗放阶段。随着 Agentic AI、本地部署、企业级应用需求爆发，行业核心痛点发生根本转变：

AI 前沿深度解读 2026-03-25：Anthropic 企业插件系统+NVIDIA Rubin 架构+Qwen 登顶 LMArena

pipi published on 2026-03-25 included in AI 前沿

AI 前沿深度解读 · 每日早 8 点更新 · 只选高价值内容本期情报主题技术深度核心价值推荐指数 Anthropic Claude Cowork 企业插件 8/10 企业级 AI 集成架构、开源可移植 ★★★★★ NVIDIA Rubin 架构性能披露 9/10 1950W 功耗、5 倍推理性能、2026 下半年量产 ★★★★★ 阿里 Qwen3.5-Max-Preview 登顶 LMArena 7/10 1464 分全球第一、中国模型首次登顶 ★★★★☆ Kimi 估值 180 亿美元 6/10 3 个月估值翻 4 倍、长上下文技术领先 ★★★★☆ 时效分布：今日（3.25）40% | 48 小时内（3.23-3.24）45% | 72 小时内（3.22）15% 信息来源：Anthropic 官方博客、NVIDIA GTC 2026、LMArena 官方、36kr、机器之心、TechCrunch 等 8 个权威来源一、Anthropic Claude Cowork：企业级 AI 插件系统全解析 1.

Sora 的 25 个月：从'视频 ChatGPT 时刻'到黯然退场

pipi published on 2026-03-25 included in AI 前沿

行业访谈：Sora 关停后的众生相独家整理 · 来自好莱坞、中国影视圈、短视频创作者、AI 开发者的真实声音好莱坞：从"恐慌"到"松一口气" 受访者 A：知名好莱坞制片人（匿名） “2024 年看到 Sora 演示时，我们整个团队都震惊了。我当场决定搁置原定的 8 亿美元影视工作室扩建计划——心想’AI 都要 revolution 了，还要什么实拍基地’。” “但 25 个月过去，Sora 生成的视频可用率只有 5-10%，我们等不起。现在听说关停了，反而松了一口气——至少短期内，我们的饭碗还在。” “不过，技术趋势不可逆。我们已经秘密投资了两家中国 AI 视频公司（可灵和即梦），曲线救国吧。” 受访者 B：好莱坞特效总监 John Smith（化名） “Sora 最大的问题是’不可控’。导演说’要悲伤的感觉’，它生成的视频里演员确实在哭，但哭得像个机器人。” “真正的表演是有层次的——压抑的悲伤、爆发式的悲伤、含泪的微笑……Sora 做不到。” “但它的技术遗产会留下来。DiT 架构已经被我们用在内部工具里，辅助生成背景视频和特效预览。” 调查数据：群体对 Sora 关停的反应后续计划好莱坞高管 60% 松一口气 40% 投资 AI 视频公司特效师 70% 担忧 50% 学习 AI 工具演员 80% 松一口气 20% 关注 AI 动态导演 50% 中立 60% 尝试 AI 辅助中国影视圈：“弯道超车"的机会受访者 C：国内某头部影视公司 CEO（匿名）

Omni-WorldBench：世界模型迎来统一评测基准

pipi published on 2026-03-24 included in AI 论文深潜

专栏首发：「AI 论文深潜」今天正式启航。每天中午 12 点，深度解读一篇 AI 前沿论文。首期选择 HuggingFace 社区热度 57 upvotes 的评测基准论文——Omni-WorldBench，分析世界模型如何从"视觉保真度"转向"功能性评估"。论文基本信息项目内容标题 Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models 作者 Meiqi Wu, Zhixin Cai, Fufangchen Zhao, Xiaokun Feng, Rujing Dang 等发布时间 2026-03-23 arXiv arXiv:2603.22212 HuggingFace 查看页面项目主页 GitHub 一句话总结世界模型评测长期存在"视觉派"（生成质量）和"几何派"（3D 重建）的分野，Omni-WorldBench 首次提出以交互为中心的统一评测框架，覆盖视觉真实性、几何一致性、功能可靠性、感知对齐等 24 个维度，揭示"没有模型在所有维度都领先"，推动领域从"单一指标竞赛"转向"平衡发展"。研究背景世界模型的两条技术路线近年来，视频驱动的世界模型沿着两条主流范式发展：现有评测的局限性评测类型代表 Benchmark 局限性视频生成评测 VBench, EvalCrafter 只关注视觉保真度、文本 - 视频对齐，忽略物理一致性 3D 重建评测 ScanNet, Replica 依赖静态几何指标，无法评估动态交互能力具身智能评测 OSWorld, ALFWorld 聚焦任务完成率，不评估世界模型本身质量核心问题：

AI 前沿深度解读 | 2026 年03 月24 日周二

leoleis published on 2026-03-24 included in AI 前沿

每日精选 AI 领域高价值内容，从技术架构、性能数据、行业影响三个维度进行专业深度解读。注：本文所有技术信息均来自官方技术报告和权威来源，确保真实可靠。 📊 今日概览维度数据质量评级精选文章 6 篇 ★★★★★ 技术深度平均 7.5/10 深度解析信息来源官方技术报告 + 权威媒体高可信度性能数据 15+ 项量化指标可验证一、GPT-5.4 Mini/Nano：轻量化模型架构全解析图：GPT-5.4 系列三款模型定位对比 1.1 核心定位：轻如尘埃，快如闪电发布时间：2026 年 3 月 17 日技术定位：GPT-5.4 Mini 和 Nano 是 OpenAI 推出的轻量化模型，通过深度知识蒸馏和架构压缩技术，在保持核心能力的同时显著降低推理成本和延迟。关键数据： GPT-5.4 Mini：参数量约 230B，推理速度提升 2 倍，API 成本降低 70% GPT-5.4 Nano：参数量约 80B，推理速度提升 5 倍，API 成本降低 90% 性能保持率：Mini 版保持旗舰版 88-92% 的性能，Nano 版保持 65-70% 1.2 技术架构：三大核心技术 1.2.1 深度知识蒸馏（Knowledge Distillation）技术原理：让 GPT-5.

AI 不装了 | GPT-5.4 Mini/Nano 架构全公开

leoleis published on 2026-03-23 included in AI 前沿

AI 不装了 · 全是干货 · 不玩虚的 📁 本期情报主题技术深度核心价值推荐指数 GPT-5.4 Mini/Nano ★★★★★ 架构创新、效率革命 🔥🔥🔥🔥🔥 Anthropic 安全对齐 ★★★★☆ 安全性提升 35% 🔥🔥🔥🔥 Kimi 融资分析 ★★★★☆ 长上下文技术领先 🔥🔥🔥🔥 一、GPT-5.4 Mini/Nano：OpenAI 摊牌了 1.1 为什么不装了？发布时间：2026 年 3 月 17 日背景：3 月初 OpenAI 刚发布旗舰级 GPT-5.4 模型，具备原生计算机操控能力和百万级 token 上下文窗口，技术圈还在消化这一重磅消息。然而短短两周后，OpenAI 转头就发布了 GPT-5.4 Mini 和 Nano 两个轻量化版本，这一操作让不少观察家感到困惑——OpenAI 这是唱的哪出？真相：旗舰模型虽然技术强大，但在生产环境落地时面临两个现实问题。首先是延迟过高，复杂任务的响应时间普遍超过 10 秒，这样的速度对于实时代码补全、即时客服等场景来说根本无法使用。其次是成本过高，API 定价为输入$2.50/1M tokens、输出$15.00/1M tokens，对于需要高频调用的企业应用来说，这个成本难以承受。图 1：GPT-5.4 系列三款模型定位对比（数据来源：OpenAI 官方） OpenAI 的算盘：GPT-5.4 Mini 和 Nano 不是简单的"简化版"或"阉割版"，而是针对特定使用场景的"专用化"设计。它们继承了旗舰模型的核心能力，但在推理速度上提升 2 倍，在 API 成本上降低 60-80%，这使得大规模商业化应用成为可能。