选择你喜欢的标签
我们会为你匹配适合你的网址导航

跳过将删除所有初始化信息

AudioStory – 腾讯ARC推出的音频生成模型

智能 2025-09-03 13:55

声明：该文章来自（AI工具集）版权由原作者所有，K2OS渲染引擎提供网页加速服务。

AudioStory是什么

AudioStory 是腾讯 ARC 实验室发布的音频生成技术，能根据自然语言描述生成高质量的长篇叙事音频。采用分而治之策略，将复杂叙事请求拆解为有序子任务，通过解耦桥接机制，精准协调语义与音效细节。端到端训练方式，提升了模型协同作用，生成的音频具有时序逻辑与情绪层次。

AudioStory的主要功能

视频自动配音：用户上传无声视频并描述音效风格，AudioStory可自动分析视频内容，生成与之同步且风格统一的背景音轨。
音频智能续写：给定一段音频，AudioStory能智能推断后续场景，自动补充合理的音频续集，如根据篮球训练的教练声音补充球员脚步声、篮球拍打声等。
有声书创作：为有声书提供高质量的音频内容，根据文本描述生成具有时序逻辑与情绪层次的音频，让听众更好地沉浸在故事中。
游戏音效制作：为游戏生成沉浸式的音效，根据游戏场景描述生成匹配的音频，增强玩家的游戏体验。
智能播客：帮助播客创作者快速生成音频内容，根据话题描述生成相应的音频片段，提高创作效率。

AudioStory的技术原理

分而治之策略：将复杂的叙事请求拆解为有顺序的子任务，分别生成对应的音频片段，再按时间轴精准编排，确保整体音频的连贯性和逻辑性。
解耦桥接机制：将大语言模型与音频生成器的合作分解为桥梁查询和残差查询两个组件，分别用于事件内语义对齐和跨事件一致性保存，提升生成效果。
端到端训练：采用统一的训练方式，同时优化指令理解和音频生成两个环节，增强模型各部分之间的协同作用，提高整体性能。
语义令牌与残差令牌双通道机制：通过双通道分别处理宏观叙事和微观音效细节，精准协调两者关系，使生成的音频既符合整体叙事逻辑，又具备丰富的细节表现。
三阶段渐进训练：从单音生成到音频协同，再到长篇叙事，逐步提升模型的性能和适应能力，使其能够更好地应对复杂的长篇叙事音频生成任务。

AudioStory的项目地址

Github仓库：https://github.com/TencentARC/AudioStory。
论文地址：https://arxiv.org/pdf/2508.20088。

AudioStory的应用场景

视频配音：根据用户提供的无声视频和音效风格描述，自动分析视频内容并生成匹配的背景音轨。
音频续写：基于给定音频片段，推断后续场景并补充合理的音频续集，如为篮球训练音频添加球员脚步声等。
有声书创作：依据文本描述生成具有时序逻辑和情绪层次的音频，提升有声书的听觉体验。
游戏音效生成：根据游戏场景描述生成沉浸式音效，增强玩家的游戏体验。

关注我们

[超站]友情链接：

四季很好，只要有你，文娱排行榜：https://www.yaopaiming.com/
关注数据与安全，洞悉企业级服务市场：https://www.ijiandao.com/

*文章为作者独立观点，不代表 0XUCN 立场

本文由奶油泡泡发表，转载此文章须经作者同意，并请附上出处(0XUCN)及本页链接。

原文链接 https://www.0xu.cn/article/intelnet/intelligent/63138.html

AI工具集 AudioStory 腾讯 ARC 音频生成

图库

百度热搜榜

排名热点搜索指数

bgame.cn

分享文章

微信
微信扫码分享

新浪微博
离开
复制链接
返回顶部