FlowAct-R1 – 字节推出的实时交互数字人视频生成框架

智能 PRO 稿源：AI工具集 2026-01-26 02:56

FlowAct-R1是什么

FlowAct-R1是字节跳动推出的实时交互数字人视频生成框架，仅需单张参考图和音频，支持流式生成无限时长的全身动态视频。框架通过分块扩散强制策略和多模态大语言模型实现低延迟（1.5秒首帧）和25fps的稳定实时响应，能精细控制数字人的面部表情与肢体动作，适用视频会议、虚拟陪伴和直播互动等场景，具有强大的泛化能力，可驱动多种风格角色。

FlowAct-R1的主要功能

实时交互与无限时长生成：框架仅需单张参考图和音频输入，可流式生成无限时长的全身动态视频，支持长时间稳定运行，无崩脸等常见问题。
低延迟与高帧率：框架能实现1.5秒首帧低延迟和25fps的稳定实时响应，确保交互过程流畅自然，适用视频会议、直播互动等场景。
全身动作与表情控制：通过多模态指令精细控制数字人的面部表情和肢体动作，如倾听、思考、手势等，让交互更加生动、真实。
强大的泛化能力：框架不限特定人物，可从单张参考图驱动各种风格的角色，包括写实照片、二次元动漫、艺术画风等。

FlowAct-R1的技术原理

流式生成与无限时长：框架采用分块扩散强制策略，将视频切成小块逐块生成，用结构化记忆库确保画面衔接，实现理论上的无限时长生成。
实时性能优化：框架爱结合多阶段蒸馏技术，将扩散模型的去噪步数压缩至3步。结合FP8量化和算子融合，大幅降低显存读写开销，最终实现25fps、480p的实时生成能力。
全身控制与行为规划：框架爱引入多模态大语言模型作为“大脑”，根据语音和上下文判断数字人应做出的动作，实现细粒度的自然动作规划，消除机械感。
高保真视觉效果：框架在生成过程中保持高保真视觉效果，通过优化的模型架构和训练策略，确保生成视频在不同风格和场景下的高质量表现。