AI音效神器Woosh:免费部署与使用指南
上和弦匠心设计全新校区
Audio Matrix
本文作者:辰谙
近日,SONY正式开源了一款专为音效设计的基础模型Woosh,为声音创作者、游戏开发人员和影视后期人员提供了新的创作工具。
01
Woosh简介与部署方式
Woosh是SONY AI近期开源的音效生成基础模型,支持文本生成音频,也能根据视频画面自动生成同步音效,适用于影视、游戏和视频创作等场景。
用户可通过官方源代码、ComfyUI插件或一键整合包三种方式部署Woosh。源代码部署适合有Python开发经验的用户,可直接从GitHub下载文件进行本地部署。
ComfyUI是目前流行的AI生成工具可视化平台,支持Woosh的社区插件,提供图形化界面。对于不想进行复杂配置的用户,社区提供了一键整合包,解压即可使用,是当前较推荐的方式。
需要注意的是,Woosh对硬件有明确要求,主要依赖NVIDIA GPU进行加速计算,推荐配置为NVIDIA RTX 3060/4060,8GB显存以上。
02
Woosh的使用方法
以B站大神生活作弊码发布的一键整合包为例,下载后会得到几个压缩包,解压后会得到三个不同的bat启动程序,分别是“一键启动视频转音效.bat”“一键启动文本转音效_极速模式.bat”和“一键启动文本转音效_质量模式.bat”。
这三个启动程序分别对应不同的音效生成方式,前一种对应视频生音效,后两种对应文本生音效。后两种的区别在于极速模式是蒸馏模型,生成速度极快,而质量模式生成较慢,但质量更高。
首先看文本转音效的极速模式,启动后会看到模型的WebUI:
页面中最重要的就是左上方的“中文描述”输入框,可以在此输入任意想要的音效中文提示词:
提示词的结构可以是:[物体]+[动作]+[环境]+[质感],例如“雨水落在铁皮屋顶上,轻柔而清脆”。
由于整合包已内嵌翻译工具,可直接点击右上方的“翻译成英文”:
这时“提示词”框内会出现对应的英文翻译。当然,直接在“提示词”框内输入英文提示词也可以。
除此之外,下方还有三个参数可调整,“生成数量”即一次性生成几条音效,“提示词引导系数”建议3~7,值越高越贴合提示词,但可能降低自然度,“随机种子”建议保持-1,不做更改。
之后,直接点击“立即生成”即可,生成的音效可在UI内预览,也可下载。
然后看视频转音效,点击“一键启动视频转音效.bat”启动WebUI:
视频转音效的可调参数和文本转音效的差别不大,主要就是左边多了一个上传视频的框:
在这个视频框里上传视频后,像文本转音效那样在右边的参数栏输入想要的参数,然后点击“立即生成”即可。
当然,由于这是视频转音效,所以右边的提示词也可以选择不填,这款工具会根据视频内容智能生成匹配的音效。
03
资源获取
目前,Woosh已经在GitHub上开源,地址如下:
https://github.com/SonyResearch/Woosh
B站大神生活作弊码发布的一键整合包的下载链接如下:
https://pan.quark.cn/s/2b783e2e99c9
此外,就算本地没有NVIDIA GPU,也有一些线上的AI服务可以使用,比如RunningHub等:
SONY AI团队表示未来将继续优化Woosh模型,计划未来会支持立体声和多声道音频生成,并延长视频生成的最大时长。
作者往期文章(向上滑动阅览)
音乐文化|音乐审美|音乐教育|音乐学习|五线谱|民族记谱法|和声|卡农|古典音乐|交响乐|爵士乐|摇滚乐队|噪音音乐|夜曲|指弹|民乐|强力集团|钞票上的音乐家(上)|钞票上的音乐家(下)|中国摇滚|不插电|电子音乐|Lo-Fi音乐|8bit音乐|音乐评论|ASMR|阿卡贝拉|City Pop|蒸汽波|R&B|Funk|灵魂乐|Future Bass|雷鬼|黑胶唱片|
音乐理论|国际标准音|十二平均律|五度相生律/纯律|中国古代律制|二十四大小调|中古调式|大小调|转调|固定唱名法/首调唱名法|和弦标记|转位和弦|中国民族调式|日本民族调式|三分损益法/五度相生律|通奏低音|平行五度/平行八度|三全音|谱号|五度圈|人声音域|王道进行|Leading Bass和声进行|三种小调|旋律大调/和声大调|复合和弦|负面和声|Alt音阶|Swing|“So What”|增六和弦|那不勒斯六和弦|六声音阶|终止式|超级玛丽终止式|调式互换|调式音乐|切分节奏|单对双的节奏|延伸音|“Lady Bird”和声进行|半音趋近变化|Rhythm Changes|多利亚调式|利底亚调式|
乐器及演奏|管弦乐团配器|乐器音域|管风琴|钢琴|键盘类|古琴|木吉他|电吉他|电吉他效果器|指弹吉他|CAGED System|3NPS|贝斯|贝斯Slap技巧|手风琴|特雷门|中提琴|低音提琴|单簧管/双簧管|三角铁|架子鼓|定音鼓|唢呐|移调乐器|钢琴伴奏织体|提琴揉弦|T1213121|大横按|钢琴踏板Ⅰ|钢琴踏板Ⅱ|萨克斯风|打击乐器|
现代音乐|混音/母带|母带|百万调音师|MIDI|音频格式|DJ|声音设计|作曲/写歌|旋律创作|流行音乐的曲式结构|作曲/编曲|传统和声/流行和声|人声和声|虚拟歌手|杜比音效|记录旋律|听力|翻唱/改编|相位抵消|相位问题的解决方案|模拟信号/数字信号|人耳的声源定位|立体声录音|虚拟低频|谢帕德音调|Hi-Res|削波|不同颜色的噪声|混叠|等响曲线|掩蔽效应|硬削波/软削波|AI作曲|谐波失真|过载/失真/法兹|吉他类乐器的录音|钢琴类乐器的录音|架子鼓的录音|录音的响度电平控制|多普勒效应|家庭录音室的工作台方位设置|低频陷阱/驻波问题|抖动|MIDI 2.0|立体声兼容单声道|dBFS和LKFS/LUFS|自动化处理|家庭录音室的噪声|响度提升|减法合成/加法合成|粒子合成|波表合成|MIDI钢琴人性化设置|噪音在音乐制作中的应用|编曲时要不要加效果器|音乐app对音乐文件的处理|编曲师需不需要懂混音|现代音乐制作VS传统和声规则|免费制作AI歌手|半开麦/假唱|
音乐设备|声卡|动圈麦克风/电容麦克风|麦克风的指向性|动圈耳机/动铁耳机|监听耳机|808鼓|监听音箱|倒相孔|啸叫|家庭录音室|MID设备|电子键盘|二分频/三分频|大三芯/卡侬头/大二芯/莲花头|调音台的接口|调音台的旋钮和按钮|调音台的类型|监听扬声器的类型|音量推子|话筒放大器|通道条|磁带模拟|不同阻抗的耳机|耳放|声卡和调音台的取舍|无源音箱/有源音箱|平衡/非平衡|数字麦克风/模拟麦克风|数字音频时钟|低音炮|推子前/推子后|
音乐软件|建模钢琴Pianoteq 9|L系列限制器|DAWproject|Pro Tool更新|Suno|传统DAW和AI|Fabfilter Pro-MB的向上压缩|解决立体声声相问题的工具|Cubase 15解决CSS弦乐的延迟|Ozone 12的母带实时拆分技术|Valhalla FutureVerb|Gemini 3|iZotope Insight 2|UAD插件|RipX DAW 8|Vovious|Waves Curves Resolve|FabFilter Pro-C3|OTT|Polarity-MD|Future MB|DynAssist|Stacks Audio插件|AI音频分离工具|ACE-Step 1.5|SoulX-Singer|OpenTune|ALLCOMP|iZotope RX 12|VoiceAssist|Soothe 3|
⬆️上和弦地理位置
详情咨询请戳👇