-
Notifications
You must be signed in to change notification settings - Fork 18
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
inference.py Audio results are weird. #4
Comments
@JusperLee 请问一下,该inference.py支持分别上传音频和视频吗 |
而且是实时的推理音频和视频 |
还就是想问下目前只支持2个人的视频吗 |
你好,虽然这是一个与问题无关的内容,但请问 |
哈哈,我的问题你能帮忙解答吗 |
感谢您的提问。 很抱歉,由于我不是这个代码的作者,所以无法准确回答您的问题。 |
我复现了跟你一样的问题了 |
我最近正在rebuttal期间,我会尽快查看这个问题。 |
https://github.com/JusperLee/IIANet/blob/main/inference.py 你们可以尝试一下新版本的代码。我这边测试没有问题 |
@JusperLee 用了新代码还是一样欸 |
我这边的测试没有任何问题。你首先确认一下,是否检测到两个人的人脸。 |
是两个人的,可以是多人吗 |
我再试试看 |
目前训练集只有两个说话人暂时支持两个,对于多个也可以调整inference的num_spk 你可以先试用tests文件夹下的video看看代码是否存在问题 |
你能提供一下你的inference code和weight么? |
s1.mp4s2.mp4 |
This comment was marked as duplicate.
This comment was marked as duplicate.
你提供一个文件链接包括所有的代码吧。要不然我也不知道是哪儿的问题。 我怀疑是你的权重没有正确加载。 |
IIANetv2.zip |
请问下我是哪里配置错了吗 |
用您给我的zip代码确实没问题了 |
还有一个小小的问题,就是我这是num_speakers为2,有可能没检测到人脸,num_speakers超了检测框的数据,就会直接报错了, |
我建议你可以复制一个之前的帧。 |
好的谢谢,有个问题请问一下,您这个算法大概延时是多少,也就是模型的输入是多少帧 |
虽然训练数据是2s,25fps,我看代码推理的好像是没限制模型输入多少帧? |
我们不是做流式的,所以不存在时延的问题。 |
|
我看代码好像是有多少帧的视频,就处理多少,不会截断多次处理,不知道我理解错了没 |
是这个意思 |
好的,谢谢,请问下可以改成流式的吗 |
可以改 |
可以给一些修改建议吗,想尝试做成推流的形式,谢谢 |
你可以尝试把卷积改成因果卷积。或者改成伪流式是一个segment,一个segment输入 |
好的,谢谢,segment的方式就是帧切片对吧 |
是的 |
请问一下,训练数据支持不固定人数的数据吗 |
支持,因为这个模型的输出是目标说话人。 |
好的,谢谢,也就是不需要统一每一条数据的语音输出条数对吧 |
我看阿里那个ClearVoice的训练数据必须统一是几个人的语音条数输出 |
我在测试2s的3个人说话的时候反而3个模型效果都不太行,3、5、7、10会好些 |
请问一下,每一条的训练数据,我可以理解为是,输入是2s的音频+2s的某个人的mouth向量,输出就似乎这个人对应的音频是吗 |
我不清楚他的那个情况,我们这个训练就是两个说话人音频,输出目标说话人音频 |
好的,谢谢,其实你这个模型训练也可以混杂不同人数的音频对吧,输出就一个人的音频,我理解 |
请问下,audiomodel模块,推理的时候支持batch推理吗,多人的语音同步处理,谢谢 |
搞定了 |
When I run inference.py , the results for video_tracked1.mp4 and video_trcked2.mp4 are good, but the audio output results are weird.
The two audio output results are almost identical.
Is it correct to download the model from the path below?
lrw_resnet18_mstcn.pth.tar : https://drive.google.com/file/d/1RSV4nr0C7MxDWH0FnNyR8ldjjtPOiZFq/view
checkpoints/vox2/ : https://github.com/JusperLee/IIANet/releases/download/v1.0.0/vox2.zip
Thank you for reading my post.
The text was updated successfully, but these errors were encountered: