分享
模型列表&各模型详解
输入“/”快速插入内容
模型列表&各模型详解
飞书用户6107
8月15日修改
36413
91144
💡
说明
1.
该文档列出了
目前所有可供使用的MSST模型和UVR模型
,
以及这些模型的
作用
,各个模型的推荐度将使用⭐数量表示。表中部分模型无推荐度是因为作者本人也没用过。比较推荐的
加红
表示。
2.
关于详细的分离技巧,可以结合本文的模型列表,以及
音频分离技巧(已更新1.7)
选择合适的模型进行使用。
3.
若你有自己训练的MSST模型或者是我还没有添加到模型列表中的模型,你可以参考
加载第三方&自训练模型(已更新1.7)
添加至整合包使用。
💡
1.7版本新增的模型在表中使用
淡绿色
标注。共新增14个MSST模型,1个VR模型
目录
•
官方MSST模型列表
•
非官方MSST模型分享
(不定期更新)
•
MSST模型指标解释
•
VR模型列表
MSST模型列表
以下模型可以在WebUI安装模型处,或者DownloadManager模型管理器中直接下载到
模型分为以下三个类别
◦
multi_stem_models:多音轨分离模型
◦
single_stem_models:单音轨分离模型,通常只提取两个stem,目标音轨和剩余音频
◦
vocal_models:针对于人声和伴奏分离的模型
特别提醒:手机用户可以右滑表格查看表格超出屏幕的部分哦!
第三方MSST模型分享(不定期更新)
上次更新时间:2025年6月25日
💡
注意
•
以下模型需要手动下载模型和配置文件,并前往“WebUI--安装非官方MSST模型”页面手动安装。安装方法请参考
加载第三方/自训练模型
。
模型仓库中同时包含模型(一般以ckpt结尾)以及对应的配置文件(以yaml结尾)
一些仓库还有README文档说明。有些仓库有多个不同版本的模型的话,根据模型名字,注意区分一下配置文件就行。
•
比较建议可以下载下来试试的模型
用蓝色标出了
1.
Huggingface国外网站(需要魔法),
打不开的可以把网站中的huggingface.co改成
hf-mirror.com
,其余部分不变,使用国内镜像站。也可以使用Watt Toolkit (即Steam++),选择加速Github。也能同时加速huggingface.co。谷歌云盘需要魔法才能访问。
2.
非官方MSST模型
不做单独介绍
,想了解这个模型可以做什么,可以通过模型名字了解或者下载下来使用。如果一个模型仓库中有多个模型,一般
可以根据模型名字,以及模型上传时间,
择优选取
3.
deton24的Google文档,里面包含了最新音频分离相关的消息。
包括最新模型分享,最新UVR消息,最新改动等
。想要第一时间获取最新消息的,可以关注
此处的文档
。
4.
部分用户安装完成非官方模型后使用会报错
model_type is required
,
请
参考此处
解决。
MSST模型指标解释
一些常用的指标:
◦
SDR(源失真比)
SDR是
衡量预测源(估计值)与参考源匹配程度的指标
。它通过参考信号的能量与误差(参考信号与估计值之间的差异)的能量比来计算。返回的结果是以分贝(dB)为单位的 SDR 值。
值越高表示性能越好
。
◦
SI-SDR(尺度不变源失真比)
SI-SDR 是 SDR 指标的一种变体,它
对于估计值相对于参考信号的尺度变化是无关的(即忽略响度振幅变化)
。其计算方法是先将估计值按比例调整以匹配参考信号,然后再计算 SDR。
值越高表示性能越好
。
◦
Bleedless & fullness
参考信号和估计信号之间的“溢出”(bleed)和“饱满度”(fullness)度量。“溢出”指标衡量估计信号在多大程度上溢出到参考信号中,而“饱满度”指标则衡量估计信号在多大程度上保持其相对于参考信号的独特性。简单理解就是分离的完整性。
这两个值越高表示完整性越好,
说明分离特定乐器时,饱满程度越好。
举个例子,例如分离人声伴奏,对于人声来说,溢出的越少(即bleedless指标越高),饱满度越高(即fullness指标越高),说明人声在伴奏中的残留越少,分离的越完整。
【点击展开】一些不常用的指标:
VR模型列表