选择你喜欢的标签
我们会为你匹配适合你的网址导航

    确认 跳过

    跳过将删除所有初始化信息

    您的位置:0XUCN > 资讯 > 智能
    新闻分类

    FlowAct-R1 – 字节推出的实时交互数字人视频生成框架

    智能 PRO 稿源:AI工具集 2026-01-26 02:56

    FlowAct-R1是什么

    FlowAct-R1是字节跳动推出的实时交互数字人视频生成框架,仅需单张参考图和音频,支持流式生成无限时长的全身动态视频。框架通过分块扩散强制策略和多模态大语言模型实现低延迟(1.5秒首帧)和25fps的稳定实时响应,能精细控制数字人的面部表情与肢体动作,适用视频会议、虚拟陪伴和直播互动等场景,具有强大的泛化能力,可驱动多种风格角色。

    FlowAct-R1的主要功能

    • 实时交互与无限时长生成:框架仅需单张参考图和音频输入,可流式生成无限时长的全身动态视频,支持长时间稳定运行,无崩脸等常见问题。
    • 低延迟与高帧率:框架能实现1.5秒首帧低延迟和25fps的稳定实时响应,确保交互过程流畅自然,适用视频会议、直播互动等场景。
    • 全身动作与表情控制:通过多模态指令精细控制数字人的面部表情和肢体动作,如倾听、思考、手势等,让交互更加生动、真实。
    • 强大的泛化能力:框架不限特定人物,可从单张参考图驱动各种风格的角色,包括写实照片、二次元动漫、艺术画风等。

    FlowAct-R1的技术原理

    • 流式生成与无限时长:框架采用分块扩散强制策略,将视频切成小块逐块生成,用结构化记忆库确保画面衔接,实现理论上的无限时长生成。
    • 实时性能优化:框架爱结合多阶段蒸馏技术,将扩散模型的去噪步数压缩至3步。结合FP8量化和算子融合,大幅降低显存读写开销,最终实现25fps、480p的实时生成能力。
    • 全身控制与行为规划:框架爱引入多模态大语言模型作为“大脑”,根据语音和上下文判断数字人应做出的动作,实现细粒度的自然动作规划,消除机械感。
    • 高保真视觉效果:框架在生成过程中保持高保真视觉效果,通过优化的模型架构和训练策略,确保生成视频在不同风格和场景下的高质量表现。

    FlowAct-R1的项目地址

    • 项目官网:https://grisoon.github.io/FlowAct-R1/

    • arXiv技术论文:https://arxiv.org/pdf/2601.10103

    FlowAct-R1的应用场景

    • AI直播:框架能实现24小时不间断、实时互动的直播,支持多语言和风格切换,提升观众参与感。
    • 视频会议:作为虚拟参会者,提供自然的肢体语言和互动,增强会议真实感,支持多语言翻译。
    • 虚拟陪伴:生成个性化虚拟伴侣,提供情感支持和互动娱乐,满足用户陪伴需求。
    • 在线教育:作为虚拟教师,提供生动教学和个性化辅导,支持多语言教学。
    • 客户服务:作为虚拟客服,实时解答客户问题,提供多语言支持,提升客户满意度。

    0XU.CN

    [超站]友情链接:

    四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
    关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

    图库
    公众号 关注网络尖刀微信公众号
    随时掌握互联网精彩
    赞助链接