-
Notifications
You must be signed in to change notification settings - Fork 151
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
对于重叠语音的分离 #41
Comments
你好,如果你能获得目标说话人的参考语音,并希望进行说话人归类的操作,可以考虑进行目标说话人提取。如果没有上述需求,直接使用语音分离就可以。 |
感谢您的回复,如果说待处理的音频为远场,那么目标说话人的语音使用近场还是远场呢? @alibabasglab |
基本上使用目标说话人的近场语音会比较稳定,远场语音的说话人特征没有近场稳定。 |
感谢您的建议
…---- 回复的原邮件 ----
| 发件人 | Shengkui ***@***.***> |
| 发送日期 | 2025年01月10日 10:45 |
| 收件人 | modelscope/ClearerVoice-Studio ***@***.***> |
| 抄送人 | kk ***@***.***>,
Author ***@***.***> |
| 主题 | Re: [modelscope/ClearerVoice-Studio] 对于重叠语音的分离 (Issue #41) |
你好,如果你能获得目标说话人的参考语音,并希望进行说话人归类的操作,可以考虑进行目标说话人提取。如果没有上述需求,直接使用语音分离就可以。
感谢您的回复,如果说待处理的音频为远场,那么目标说话人的语音使用近场还是远场呢? @alibabasglab
基本上使用目标说话人的近场语音会比较稳定,远场语音的说话人特征没有近场稳定。
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you authored the thread.Message ID: ***@***.***>
|
大佬,如何构建自有数据集用于目标说话人提取的模型训练呢? @alibabasglab |
请问您准备训练纯语音的目标说话人提取模型,还是要加入视频信息? |
加入视频信息 |
|
老师好,想请教一下,对于如Alimeeting这种高重叠的数据集做asr的前端是选择语音分离还是目标说话人提取呢?
The text was updated successfully, but these errors were encountered: