
新闻分类
FLM-Audio – 智源研究院开源的全双工音频对话模型
FLM-Audio是什么
FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型,支持中文和英文。采用原生全双工架构,可在每个时间步合并听觉、说话和独白通道,避免传统时分复用方案的高延迟问题。其独特的自然独白与双重训练范式,使模型在对话中更接近人类的自然交流方式,有效解决了异步对齐问题。FLM-Audio 仅用 100 万小时数据训练,数据量大幅减少,但回复质量高且响应敏捷自然,对噪声和用户打断也有较强鲁棒性。
FLM-Audio的主要功能
- 全双工语音交互:实现“边听边说”,用户可随时打断模型,模型能即时暂停输出并理解新问题后回应,交互自然流畅,延迟低。
- 支持多语言:模型支持中文和英文两种语言,能够满足不同语言用户的对话需求。
- 自然语音建模:采用“自然独白”方式模拟人类说话节奏,通过“双重训练”强化语言与声学语义对齐,兼顾低延迟与语言建模性能。
- 低数据高效训练:仅用约100万小时音频数据训练出70亿参数模型,在嘈杂环境、频繁打断场景下仍保持高鲁棒性和自然度。
- 强鲁棒性:对噪声和用户打断具有较强的鲁棒性,能迅速停顿当前输出、准确理解新问题并即时作答,保证对话的流畅性和准确性。
- 完全开源支持:论文、模型权重与代码均公开,支持本地部署与二次开发,方便研究与应用拓展。
FLM-Audio的技术原理
- 原生全双工架构:模型设计支持同时进行语音输入和输出,能实时处理语音流,实现边听边说的交互模式。
- 自然独白训练:采用连续句段与停顿组成的“自然独白”代替逐词对齐,更接近人类真实说话方式,提升语音交互的自然度。
- 双重训练策略:通过将独白交替放在音频首尾进行训练,强化语言与声学语义的对齐,提高模型对语音内容的理解和生成能力。
- 小数据高效训练:利用少量音频数据(约100万小时)训练出高参数量模型,通过优化训练方法和架构,实现低延迟和高鲁棒性。
FLM-Audio的项目地址
- GitHub仓库:https://github.com/cofe-ai/flm-audio
HuggingFace模型库:https://huggingface.co/CofeAI/FLM-Audio
arXiv技术论文:https://arxiv.org/pdf/2509.02521
FLM-Audio的应用场景
- 在线教育:AI 助教可实时回答学生问题,提供更自然、高效的互动体验。
- 游戏与虚拟现实(VR):NPC 可实现不间断、可打断的自然语音互动,增强游戏的沉浸感。
- 智能客服:低延迟对话减少用户等待,提升客服效率和用户体验。
- 智能陪伴:为用户提供更接近真人的语音互动,增强陪伴感。
- 语音助手:在智能家居、智能办公等场景中,提供更自然的语音交互体验。
- 会议辅助:在多人会议中,实时翻译、记录和互动,提高会议效率。
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 跟着总书记一起厚植文化底蕴 7904134
- 2 全世界都知道中国人放假了 7809669
- 3 央视秋晚7大神级现场 7712335
- 4 60秒延时摄影赏中秋月 7617503
- 5 游客投喂胡萝卜 羊驼:真吃不动了 7522977
- 6 谢娜首次主持央视秋晚 7429208
- 7 交警大队中队长执法现场被撞牺牲 7328042
- 8 2025年诺贝尔生理学或医学奖揭晓 7239086
- 9 千万网友催更 杭州公安霸总短剧火了 7137756
- 10 闫妮央视秋晚没有微醺 7042569