↓↓下载地址在最下面↓↓
文章来自于果核剥壳大众号首发:
https://mp.weixin.qq.com/s/qz9cjewZpfmud12-vouUZg如今对于AI的东西是愈来愈多,跟着AI的呈现,大师一定也听到了良多对于某某模子的信息,各厂家之间也是正在比照模子之间的功能,把它换种说法,有点相似正在软件以及零碎上,评论辩论运用哪一种内核的滋味了。锻炼模子普通要用到少量的算力,还要放正在特地的效劳器上,而锻炼好的效果,就像是炼制好的丹药,正在精简以及用户的设置装备摆设上也能跑,明天咱们要说的,是正在音频辨认下面一款交融了浩繁长处的模子启动器——faster-whisper-GUI。听到Whisper,这个大师能够有点熟习,这是OpenAI做的一个神经收集模子,能够正在当地及时语音转笔墨,用来翻译以及做字幕等,以前给大师引见过一款叫做Constme-Whisper的软件,能够疾速停止离线语音笔墨辨认,另有GPU减速等等。而faster-whisper-GUI添加了更多的特征,能够疾速把音视频文件转成srt/txt/smi/vtt/lrc,撑持Demucs、FastWhiper以及whisperX、VAD-model这些技能,复杂来讲,撑持的可调剂的选项要比以前引荐的东西更多一点。因为这种东西离线处置的特色,以是体积都比拟年夜,faster-whisper-GUI的本体有1.6个G,装置完以后的占用又是6个多G,并且还没有包含后续增加模子的巨细,倡议大师体验的时分,装正在空间富有的盘里。假如是别离音频以及布景音乐的话,间接把文件丢出去就行,试了一下后果还没有错,也能够独自配置输入的内容。其余的就需求加载一下额定模子了,把模子加载的时分需求留意,有个处置设置装备摆设的选项,CPU仍是CUDA,假如你用的没有是英伟达的显卡,挑选主动就行了,否则会提醒加载失利。模子也有多重挑选,假如下面带有V3标记,记患上把这个开关翻开。来尝尝语音转笔墨,假如你感到本人的设置装备摆设处置等候工夫有点长,正在软件履行的时分能够挂正在背景以及切换到其余界面,正在它的概况页面能看到输入的详细信息,它的精确率仍是比拟高的,中英文混淆与首字母巨细写这些细节都有。这种呆板辨认以及人同样,辨认率还不克不及做到100%精确,辨认完以后,会有一些过错需求手动调剂,正在faster-whisper-GUI里,它会本人跳转到字幕制造的界面,能够疾速阅读调剂,正在这里联系差别措辞人的文本等等。正在配置外面,另有很多细节能够调剂,调剂音频的默许言语以及翻译,和各类避免幻听的参数。这个功用正在一些视频编纂软件仍是需求免费的,或许需求云端处置,辨认的精确率也就那样。有了这种软件,就能够本人手动操纵了,有音频转笔墨编纂需要的冤家能够说是常备了~最初,附上软件的体验地点。正在 极客果核 大众号答复20240222获得最新链接