Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

对于重叠语音的分离 #41

Open
rookie0607 opened this issue Dec 26, 2024 · 8 comments
Open

对于重叠语音的分离 #41

rookie0607 opened this issue Dec 26, 2024 · 8 comments

Comments

@rookie0607
Copy link

老师好,想请教一下,对于如Alimeeting这种高重叠的数据集做asr的前端是选择语音分离还是目标说话人提取呢?

@alibabasglab
Copy link
Collaborator

你好,如果你能获得目标说话人的参考语音,并希望进行说话人归类的操作,可以考虑进行目标说话人提取。如果没有上述需求,直接使用语音分离就可以。

@rookie0607
Copy link
Author

你好,如果你能获得目标说话人的参考语音,并希望进行说话人归类的操作,可以考虑进行目标说话人提取。如果没有上述需求,直接使用语音分离就可以。

感谢您的回复,如果说待处理的音频为远场,那么目标说话人的语音使用近场还是远场呢? @alibabasglab

@alibabasglab
Copy link
Collaborator

你好,如果你能获得目标说话人的参考语音,并希望进行说话人归类的操作,可以考虑进行目标说话人提取。如果没有上述需求,直接使用语音分离就可以。

感谢您的回复,如果说待处理的音频为远场,那么目标说话人的语音使用近场还是远场呢? @alibabasglab

基本上使用目标说话人的近场语音会比较稳定,远场语音的说话人特征没有近场稳定。

@rookie0607
Copy link
Author

rookie0607 commented Jan 10, 2025 via email

@rookie0607
Copy link
Author

大佬,如何构建自有数据集用于目标说话人提取的模型训练呢? @alibabasglab

@alibabasglab
Copy link
Collaborator

请问您准备训练纯语音的目标说话人提取模型,还是要加入视频信息?

@rookie0607
Copy link
Author

请问您准备训练纯语音的目标说话人提取模型,还是要加入视频信息?

加入视频信息

@rookie0607
Copy link
Author

请问您准备训练纯语音的目标说话人提取模型,还是要加入视频信息?

加入视频信息

@alibabasglab

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants