
FasterWhisperGUI国内开发者整合的语音转字幕神器
声明:该文章由作者(funnyg)发表,转载此文章须经作者同意并请附上出处(0XUCN)及本页链接。。
因为国内禁了HuggingFace,所以我最近在部署fast-whisper-web时遇到了麻烦。转而找到了一个国内开发者CheshireCC整合的开源项目:faster-whisper-GUI。
不得不说:虽然很多技术源头来自国外开发,但国内开发者却能把这些技术整合出花样来。faster-whisper-GUI就把Demucs、fast-whisper、whisperX这三个项目整合到了一起。你不得不说作者很有创意:为了减少人声转字幕背景音的干扰,直接把人声提取工具Demucs也整合进来了。语音转文字则使用的是whisper的衍生项目faster-whisper,提取速度更快对显卡的要求更低。最终字幕输出则用到了whisperX。
在使用faster-whisper-GUI前要切换到模型页面,加载faster-whisper模型。作者直接推荐用large模型进行处理,我用RTX2060S测试了一下,速度还是挺快的,所以中端显卡即使用large模型也不用担心速度。
然后切换回主界面,如果你想对音频做一个人声分离再处理,可以用到Demucs,事实上faster-whisper在这一块做的已经足够好,直接进入faster-whisper进行语音转字幕即可。
在转写时模型可自动识别语言类型,但是还是建议提前在fast-whisper的参数页选择好语种。
然后运行转写就可以看到语音识别出台词了(不知道大家看台词能不能猜出我用的案例是哪部电影)。
处理完后会切换到WhisperX进行字幕输出,通过WhisperX可以对输出的文件类型和编码等进行设置,然后就可以导出字幕或者文本文件了。
faster-whisper-GUI其实是一个整合项目,整合了faster-whisper0.9、whisperX3.1.1、Demucs4.0。
虽然我一般更偏向于用原生项目,毕竟原生项目更新更及时,而整合项目毕竟容易有烂尾风险。但是在HuggingFace被禁的大背景下,一些整合项目不仅实用也是大家最省事的解决方案。
下载地址:https://pan.quark.cn/s/b2423764b018#/list/share
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
- 1 古今接力赓续中华文脉 7904551
- 2 台湾旅行团整团被卖到缅甸 7808459
- 3 未来5年地球将遇“致命高温” 7714340
- 4 “两重”建设为什么如此重要 7619162
- 5 外交部回应日本人在华被害 7521034
- 6 胡歌新身份正式官宣 7428642
- 7 大连警方:男子杀害2名日本人被刑拘 7330710
- 8 被赵丽颖《酱园弄》出场美晕了 7238753
- 9 27岁女游客在三亚被蛇咬伤身亡 7142654
- 10 去中国要带空箱子 7046329