选择你喜欢的标签
我们会为你匹配适合你的网址导航

跳过将删除所有初始化信息

SongBloom – 腾讯AI Lab推出的全长度歌曲生成模型

智能 2025-10-16 10:08

声明：该文章来自（AI工具集）版权由原作者所有，K2OS渲染引擎提供网页加速服务。

SongBloom是什么

SongBloom 是腾讯 AI Lab 开发的全长度歌曲生成框架，结合了自回归草图绘制和基于扩散的细化技术，通过交错生成范式（Interleaved Generation）交替生成语义和声学上下文，生成高质量的完整歌曲。模型只需输入 10 秒音频样本和对应歌词，即可生成长达 2 分 30 秒的双通道、48kHz 音频。SongBloom 在音频质量和歌词准确性方面表现出色，接近领域最佳水平（SOTA），已成功开源。

SongBloom的主要功能

高效歌曲生成：仅需 10 秒音频样本和对应歌词，即可生成长达 2 分 30 秒的完整歌曲，支持双通道、48kHz 高质量音频输出。
创新生成范式：采用交错生成范式，结合自回归草图绘制和基于扩散的细化技术，交替生成语义和声学上下文，优化歌曲整体结构和音质。
卓越音质与准确性：在音频质量和歌词准确性方面表现出色，接近领域最佳水平（SOTA），超越现有开源模型。
开源与易用性：项目已开源，提供详细的使用指南和多种模型版本，支持低显存设备运行，方便用户快速上手。
广泛的应用前景：为音乐创作、音频制作等领域提供了强大的工具，能够显著提升创作效率，激发音乐创作的新灵感。

SongBloom的技术原理

交错生成范式：通过交替生成语义和声学上下文，动态切换生成过程，优化歌曲整体结构和音质。
自回归草图绘制：利用自回归模型生成音乐草图，确保结构连贯性和音素对齐。
扩散模型细化：结合扩散模型对生成的草图进行高保真细化，提升音频质量。
离散与连续输出结合：使用离散的 sketch token 和 VAE latent 输出最终结果，兼顾结构和音质。
多模态输入融合：输入包含歌词和音频样本，模型通过多模态融合实现精准生成。

SongBloom的项目地址

Github仓库：https://github.com/tencent-ailab/SongBloom
HuggingFace模型库：https://huggingface.co/CypressYang/SongBloom
arXiv技术论文：https://arxiv.org/pdf/2506.07634
在线体验Demo：https://cypress-yang.github.io/SongBloom_demo/

SongBloom的应用场景

音乐创作：为音乐人和创作者提供灵感，快速生成高质量的歌曲基础框架，帮助他们探索新的音乐风格和创作方向。
音频制作：在影视、游戏、广告等行业的音频制作中，用于快速生成背景音乐或主题曲，提升制作效率。
教育领域：作为音乐教育工具，帮助学生理解音乐结构和创作过程，激发学习兴趣。
娱乐产业：在社交媒体、短视频等平台，为用户生成个性化的音乐内容，增强互动性和趣味性。
商业应用：为企业和品牌生成定制化的音乐，用于产品推广、活动宣传等，提升品牌影响力。

关注我们

[超站]友情链接：

四季很好，只要有你，文娱排行榜：https://www.yaopaiming.com/
关注数据与安全，洞悉企业级服务市场：https://www.ijiandao.com/

*文章为作者独立观点，不代表 0XUCN 立场

本文由张梦婷发表，转载此文章须经作者同意，并请附上出处(0XUCN)及本页链接。

原文链接 https://www.0xu.cn/article/intelnet/intelligent/64266.html

AI工具集 SongBloom 腾讯 AI Lab

图库

百度热搜榜

排名热点搜索指数

bgame.cn

分享文章

微信
微信扫码分享

新浪微博
离开
复制链接
返回顶部