主题:爱诗科技正式发布 PixVerse R1,全球首个实时AI视频模型,所见即所得,画面秒出
如果说 2024 年是视频生成比拼“画质”与“时长”的一年,那么 2026 年初的这场发布会则宣告了规则的彻底改变 。
1 月 13 日晚,爱诗科技正式发布 PixVerse R1——全球首个支持 1080P 分辨率的通用实时世界模型 。这不仅是生成速度的提升,更是 AIGC 从“预录制”向“实时动态生成”的范式转移 。
从“异步渲染”到“即时反馈”的范式转移
在传统的 AI 视频制作流程中,开发者与创作之间始终隔着一道“时间的鸿沟”:用户输入提示词后,往往需要经历数分钟甚至更久的后台渲染,这种长时延迟带来的“异步”体验,不仅打断了创意的连续性,更让视频生成更像是一种“开盲盒”式的离线任务 。
PixVerse R1 的发布,宣告了视频创作正式告别“等待时代”。它通过三个维度的深度重构,将视频从冰冷的“成品文件”转化为一个活生生的“交互世界”:
首先,响应速度。PixVerse R1 首次将视频生成的延迟从行业普遍的“秒级”乃至“分钟级”直接拉降至人眼感知的“瞬时”阈值 。通过其核心的瞬时响应引擎(IRE),R1 实现了类似人类自然谈话般的实时反馈,让“所想即所见、所说即所现”不再是口号,而成为触手可得的交互现实 。
其次,是创作逻辑从“预设”转向“实时共演”。不同于传统模型一次性输出固定时长的短片,PixVerse R1 引入了革命性的流式生成机制 。这意味着用户可以在视频生成的任何时刻,像“导演”在拍摄现场实时喊话一样插入新指令 。例如,当画面中正展现“一只猫跳上窗台”时,用户若即兴补充“让天空变成黄昏”,画面无需重新推倒重来,而是在约 0.5 秒内实现光影与色调的自然平滑过渡 。这种动态调整的能力,让视频从封闭的“内容成品”转变为一个可随意念持续演化的“数字生命体” 。
最后,是声画同步。为了追求极致的沉浸感,PixVerse R1 在实现视觉实时生成的同频,还具备了卓越的音画同步能力 。当系统生成 1080P 高清视频时,会根据画面内容实时匹配相应的环境音效——如雨天的滴答声或风拂过树梢的沙沙声 。这种视听一体化的呈现方式,不仅极大地提升了内容创作的电影质感,更让用户得以身临其境地构建出一个完整的、物理逻辑合理的视听世界 。
PixVerse R1的发布,不仅是视频生成技术模型上的突破,更标志着一种新媒介形态的诞生——视频不再是封闭的“内容成品”,而是可交互、可延续、可共同演进的数字世界。
拆解三大技术支柱
PixVerse R1 的横空出世,并非源于单一算法的微调,而是一场系统性的架构革命。爱诗科技将其自研的技术体系命名为“实时交互世界引擎”,通过三大底层技术的深度协同,彻底打破了传统视频生成的性能瓶颈。
Omni 原生多模态基础模型(Native Multimodal Foundation Model)打破了传统多模态系统“拼接式”处理的局限。它采用Transformer架构,具有高扩展性,模型统一Token流架构(stream of tokens),将文本、图像、音频与视频融合为单一生成序列,实现真正端到端的跨模态理解与输出。更为关键的是,模型全程在原生分辨率下训练,避免了上采样带来的模糊与伪影。通过scaleup训练,使光影变化、物体运动与物理交互具备一致性和真实感。这意味着,AI 不再只是“画图”,而是在模拟一个符合现实场景的世界。
在此基础上,自回归流式生成机制(Consistent Infinite Streaming via Autoregressive Mechanism)解决了长时序一致性这一行业难题。通过引入记忆增强注意力模块,可生成任意长度的视频内容,并长期维持角色身份、物体状态与环境逻辑的一致性。用户不再受限于几秒片段,而能在生成过程中随时插入新指令,系统即时响应并动态调整叙事,实现真正的“流式交互”。画面突变、逻辑断裂等传统生成痛点,由此成为历史。
而让这一切“实时”成为可能的,是创造性的瞬时响应引擎(Instant Response Engine ——IRE)。IRE 通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新,将传统扩散模型所需的 50+ 采样步数压缩至惊人的 1–4 步,计算效率提升数百倍,让动态画面进入人眼可感知的“即时”响应阈值。不仅可以支撑高并发 API 服务,更为未来终端设备部署铺平道路。
三大核心技术环环相扣:Omni 提供现实世界的“计算基座”,自回归流式生成机制赋予其“持久记忆”,IRE 则注入即时反应的“神经反射”。它们共同构成了 PixVerse-R1 这一全球首个支持 1080P 实时生成的通用视频大模型,也正式开启了“视频即交互、世界可共创”的新范式。
从“看视频”到“玩视频”
爱诗科技创始人兼 CEO 王长虎指出,PixVerse R1 不仅仅是一个生成工具,它代表着一种全新的媒体形式 。在这一范式下,视频不再是固化的“内容成品”,而是演变为一个“可交互的数字世界计算基础设施” 。这种转变彻底模糊了创作与消费的边界,让视频消费者同时成为创作者,在观看的同时即可即时调整并重塑内容 。
传统的游戏场景高度依赖预设脚本,交互边界受限。PixVerse R1 的实时生成能力,使得非玩家角色(NPC)与游戏环境能够根据玩家的意图和操作进行实时演化 。这意味着每一个玩家在游戏世界中的物理交互与对话,都能即时触发符合逻辑的环境变化,让“开放世界”真正实现动态的自由度 。
在影视与娱乐领域,PixVerse R1 将“观看”升级为“塑造”。观众不再是被动地接收影像,而是可以通过语音、手势等交互方式,实时改写电影的剧情走向或画面风格 。这种“所想即所现”的特性,将催生出全新的互动电影、AI 原生互动综艺等业态,让叙事权真正回归到每一个受众手中 。
除了娱乐领域,PixVerse R1 的应用边界延伸至更广阔的生产力场景。在科研实验与场景推演中,它能提供实时且符合物理规律的视觉演化模拟 ;在电商直播中,它能实现实时的产品模拟与背景重塑,极大提升了消费者的沉浸式交互体验 。从经典影像的即时重制到复杂的场景模拟,PixVerse R1 正在构建一个“视频即交互、世界可共创”的新未来 。
顶尖团队与资本护航
从“抖音视觉推手”到“世界模型构建者” 爱诗科技的快速崛起离不开其深厚的技术基因。创始人兼 CEO 王长虎博士拥有近 20 年的 AI 研究经验,曾任字节跳动 AI Lab 总监及视觉技术负责人。他曾完整参与并主导了抖音及 TikTok 从 0 到 1 的视觉技术体系建设。这种将顶尖技术转化为国民级产品的能力,被注入到了 PixVerse 的血液中,使其在产品上线之初便具备了极强的爆发力与用户洞察。
自 2023 年 4 月成立以来,爱诗科技不仅在技术上完成了从 V1 到 R1 的跨代进化,在商业化道路上也展现出了惊人的“爱诗速度”。目前,其全球用户量已正式突破 1 亿大关,月活跃用户(MAU)超过 1600 万,其年度经常性收入(ARR)已跨越 4000 万美元。通过其开放平台 API,全球已有超过 100 家合作伙伴接入,累计生成视频超千万个。从 B 端广告、游戏素材生产到 C 端创意消费,爱诗科技正稳步构建起一个可持续增长的视频 AI 生态闭环。
同时,也收获了资本的押注。2025 年 9 月,公司宣布完成超过 6000 万美元的 B 轮融资,由阿里巴巴领投,达晨财智、深创投、北京市人工智能产业投资基金、巨人网络、Antler 等机构跟投。随后在 10 月,公司再度斩获超过 1 亿元人民币的 B+ 轮融资。这些资金不仅为 PixVerse R1 这种耗费巨大算力的实时模型研发提供了充足弹药,更标志着爱诗科技成为了阿里大模型投资版图中至关重要的“视频模型之眼”。
王长虎博士曾表示,AI 视频生成赛道注定
回帖(0):全部回帖(0)»