- 移动版

主题：爱诗科技正式发布 PixVerse R1，全球首个实时AI视频模型，所见即所得，画面秒出

爱我中华发表于 2026-01-14 11:58

如果说 2024 年是视频生成比拼“画质”与“时长”的一年，那么 2026 年初的这场发布会则宣告了规则的彻底改变。
1 月 13 日晚，爱诗科技正式发布 PixVerse R1——全球首个支持 1080P 分辨率的通用实时世界模型。这不仅是生成速度的提升，更是 AIGC 从“预录制”向“实时动态生成”的范式转移。

从“异步渲染”到“即时反馈”的范式转移

在传统的 AI 视频制作流程中，开发者与创作之间始终隔着一道“时间的鸿沟”：用户输入提示词后，往往需要经历数分钟甚至更久的后台渲染，这种长时延迟带来的“异步”体验，不仅打断了创意的连续性，更让视频生成更像是一种“开盲盒”式的离线任务。
PixVerse R1 的发布，宣告了视频创作正式告别“等待时代”。它通过三个维度的深度重构，将视频从冰冷的“成品文件”转化为一个活生生的“交互世界”：
首先，响应速度。PixVerse R1 首次将视频生成的延迟从行业普遍的“秒级”乃至“分钟级”直接拉降至人眼感知的“瞬时”阈值。通过其核心的瞬时响应引擎（IRE），R1 实现了类似人类自然谈话般的实时反馈，让“所想即所见、所说即所现”不再是口号，而成为触手可得的交互现实。
其次，是创作逻辑从“预设”转向“实时共演”。不同于传统模型一次性输出固定时长的短片，PixVerse R1 引入了革命性的流式生成机制。这意味着用户可以在视频生成的任何时刻，像“导演”在拍摄现场实时喊话一样插入新指令。例如，当画面中正展现“一只猫跳上窗台”时，用户若即兴补充“让天空变成黄昏”，画面无需重新推倒重来，而是在约 0.5 秒内实现光影与色调的自然平滑过渡。这种动态调整的能力，让视频从封闭的“内容成品”转变为一个可随意念持续演化的“数字生命体” 。
最后，是声画同步。为了追求极致的沉浸感，PixVerse R1 在实现视觉实时生成的同频，还具备了卓越的音画同步能力。当系统生成 1080P 高清视频时，会根据画面内容实时匹配相应的环境音效——如雨天的滴答声或风拂过树梢的沙沙声。这种视听一体化的呈现方式，不仅极大地提升了内容创作的电影质感，更让用户得以身临其境地构建出一个完整的、物理逻辑合理的视听世界。
PixVerse R1的发布，不仅是视频生成技术模型上的突破，更标志着一种新媒介形态的诞生——视频不再是封闭的“内容成品”，而是可交互、可延续、可共同演进的数字世界。

拆解三大技术支柱

PixVerse R1 的横空出世，并非源于单一算法的微调，而是一场系统性的架构革命。爱诗科技将其自研的技术体系命名为“实时交互世界引擎”，通过三大底层技术的深度协同，彻底打破了传统视频生成的性能瓶颈。
Omni 原生多模态基础模型（Native Multimodal Foundation Model）打破了传统多模态系统“拼接式”处理的局限。它采用Transformer架构，具有高扩展性，模型统一Token流架构（stream of tokens），将文本、图像、音频与视频融合为单一生成序列，实现真正端到端的跨模态理解与输出。更为关键的是，模型全程在原生分辨率下训练，避免了上采样带来的模糊与伪影。通过scaleup训练，使光影变化、物体运动与物理交互具备一致性和真实感。这意味着，AI 不再只是“画图”，而是在模拟一个符合现实场景的世界。
在此基础上，自回归流式生成机制（Consistent Infinite Streaming via Autoregressive Mechanism）解决了长时序一致性这一行业难题。通过引入记忆增强注意力模块，可生成任意长度的视频内容，并长期维持角色身份、物体状态与环境逻辑的一致性。用户不再受限于几秒片段，而能在生成过程中随时插入新指令，系统即时响应并动态调整叙事，实现真正的“流式交互”。画面突变、逻辑断裂等传统生成痛点，由此成为历史。
而让这一切“实时”成为可能的，是创造性的瞬时响应引擎（Instant Response Engine ——IRE）。IRE 通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新，将传统扩散模型所需的 50+ 采样步数压缩至惊人的 1–4 步，计算效率提升数百倍，让动态画面进入人眼可感知的“即时”响应阈值。不仅可以支撑高并发 API 服务，更为未来终端设备部署铺平道路。
三大核心技术环环相扣：Omni 提供现实世界的“计算基座”，自回归流式生成机制赋予其“持久记忆”，IRE 则注入即时反应的“神经反射”。它们共同构成了 PixVerse-R1 这一全球首个支持 1080P 实时生成的通用视频大模型，也正式开启了“视频即交互、世界可共创”的新范式。

从“看视频”到“玩视频”

爱诗科技创始人兼 CEO 王长虎指出，PixVerse R1 不仅仅是一个生成工具，它代表着一种全新的媒体形式。在这一范式下，视频不再是固化的“内容成品”，而是演变为一个“可交互的数字世界计算基础设施” 。这种转变彻底模糊了创作与消费的边界，让视频消费者同时成为创作者，在观看的同时即可即时调整并重塑内容。
传统的游戏场景高度依赖预设脚本，交互边界受限。PixVerse R1 的实时生成能力，使得非玩家角色（NPC）与游戏环境能够根据玩家的意图和操作进行实时演化。这意味着每一个玩家在游戏世界中的物理交互与对话，都能即时触发符合逻辑的环境变化，让“开放世界”真正实现动态的自由度。
在影视与娱乐领域，PixVerse R1 将“观看”升级为“塑造”。观众不再是被动地接收影像，而是可以通过语音、手势等交互方式，实时改写电影的剧情走向或画面风格。这种“所想即所现”的特性，将催生出全新的互动电影、AI 原生互动综艺等业态，让叙事权真正回归到每一个受众手中。
除了娱乐领域，PixVerse R1 的应用边界延伸至更广阔的生产力场景。在科研实验与场景推演中，它能提供实时且符合物理规律的视觉演化模拟；在电商直播中，它能实现实时的产品模拟与背景重塑，极大提升了消费者的沉浸式交互体验。从经典影像的即时重制到复杂的场景模拟，PixVerse R1 正在构建一个“视频即交互、世界可共创”的新未来。

顶尖团队与资本护航

从“抖音视觉推手”到“世界模型构建者” 爱诗科技的快速崛起离不开其深厚的技术基因。创始人兼 CEO 王长虎博士拥有近 20 年的 AI 研究经验，曾任字节跳动 AI Lab 总监及视觉技术负责人。他曾完整参与并主导了抖音及 TikTok 从 0 到 1 的视觉技术体系建设。这种将顶尖技术转化为国民级产品的能力，被注入到了 PixVerse 的血液中，使其在产品上线之初便具备了极强的爆发力与用户洞察。
自 2023 年 4 月成立以来，爱诗科技不仅在技术上完成了从 V1 到 R1 的跨代进化，在商业化道路上也展现出了惊人的“爱诗速度”。目前，其全球用户量已正式突破 1 亿大关，月活跃用户（MAU）超过 1600 万，其年度经常性收入（ARR）已跨越 4000 万美元。通过其开放平台 API，全球已有超过 100 家合作伙伴接入，累计生成视频超千万个。从 B 端广告、游戏素材生产到 C 端创意消费，爱诗科技正稳步构建起一个可持续增长的视频 AI 生态闭环。
同时，也收获了资本的押注。2025 年 9 月，公司宣布完成超过 6000 万美元的 B 轮融资，由阿里巴巴领投，达晨财智、深创投、北京市人工智能产业投资基金、巨人网络、Antler 等机构跟投。随后在 10 月，公司再度斩获超过 1 亿元人民币的 B+ 轮融资。这些资金不仅为 PixVerse R1 这种耗费巨大算力的实时模型研发提供了充足弹药，更标志着爱诗科技成为了阿里大模型投资版图中至关重要的“视频模型之眼”。
王长虎博士曾表示，AI 视频生成赛道注定

下一页 (1/2)

回帖(0)：

全部回帖(0)»