Step-Audio 2 mini – 阶跃星辰开源的端到端语音大模型

智能 PRO 稿源：AI工具集 2025-09-03 14:07

Step-Audio 2 mini是什么

Step-Audio 2 mini 是阶跃星辰发布的开源端到端语音大模型。突破传统语音模型结构，采用真端到端多模态架构，直接将原始音频输入转化为语音响应输出，时延更低，能理解副语言信息与非人声信号。模型引入链式思维推理与强化学习联合优化，对情绪、语调等进行精细理解与回应，支持 web 检索等外部工具，有效解决幻觉问题，提升多场景扩展能力。

在性能上，Step-Audio 2 mini 在多个国际基准测试集上取得 SOTA 成绩。例如，在通用多模态音频理解测试集 MMAU 上，以 73.2 的得分位列开源端到端语音模型榜首；在衡量口语对话能力的 URO Bench 上，基础与专业赛道均拿下开源端到端语音模型最高分；在中英互译任务上，大幅领先 GPT-4o Audio 和其他开源语音模型；在语音识别任务上，取得多语言和多方言第一，领先其他开源模型 15% 以上。

Step-Audio 2 mini的主要功能

音频理解：能精准理解各种音频内容，包括自然声音、音乐、语音等，还能捕捉情绪、语调等副语言信息，实现对“弦外之音”的感知。
语音识别：在多语言和多方言的语音识别上表现出色，准确率高，能快速将语音转化为文字，适用于多种语言环境。
语音翻译：支持语音到语音的翻译，可实现中英等多语言互译，帮助用户跨越语言障碍进行交流。
情感与副语言解析：能分析语音中的情感和副语言特征，如愤怒、快乐、悲伤等情绪，以及笑声、叹息等非语言信号，使交互更自然。
语音对话：具备优秀的对话能力，能进行流畅的语音交流，理解复杂问题并给出恰当回答，可用于智能客服、语音助手等场景。
工具调用：支持联网搜索等操作，可实时获取最新信息，为用户提供更全面、准确的回答。
内容创作：可辅助生成音频内容，如播客、有声读物等，为创作者提供灵感和素材。

Step-Audio 2 mini的技术原理

真端到端多模态架构：突破传统语音模型的三级结构，直接将原始音频输入转化为语音响应输出，简化架构，降低时延，能有效理解副语言信息与非人声信号。
CoT 推理结合强化学习：首次在端到端语音模型中引入链式思维推理与强化学习联合优化，对情绪、语调、音乐等副语言和非语音信号进行精细理解、推理并自然回应。
音频知识增强：支持 web 检索等外部工具，帮助模型解决幻觉问题，提升在多场景下的扩展能力，使模型能获取最新信息并进行准确回答。