Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

inference.py Audio results are weird. #4

Open
d0v0h opened this issue Nov 10, 2024 · 52 comments
Open

inference.py Audio results are weird. #4

d0v0h opened this issue Nov 10, 2024 · 52 comments

Comments

@d0v0h
Copy link

d0v0h commented Nov 10, 2024

When I run inference.py , the results for video_tracked1.mp4 and video_trcked2.mp4 are good, but the audio output results are weird.
The two audio output results are almost identical.

Is it correct to download the model from the path below?

lrw_resnet18_mstcn.pth.tar : https://drive.google.com/file/d/1RSV4nr0C7MxDWH0FnNyR8ldjjtPOiZFq/view
checkpoints/vox2/ : https://github.com/JusperLee/IIANet/releases/download/v1.0.0/vox2.zip

Thank you for reading my post.

@world2025
Copy link

@JusperLee 请问一下,该inference.py支持分别上传音频和视频吗

@world2025
Copy link

@JusperLee 请问一下,该inference.py支持分别上传音频和视频吗

而且是实时的推理音频和视频

@world2025
Copy link

@JusperLee 请问一下,该inference.py支持分别上传音频和视频吗

而且是实时的推理音频和视频

还就是想问下目前只支持2个人的视频吗

@d0v0h
Copy link
Author

d0v0h commented Nov 13, 2024

你好,虽然这是一个与问题无关的内容,但请问 inference.py 文件的执行结果正常吗?

@world2025
Copy link

你好,虽然这是一个与问题无关的内容,但请问 inference.py 文件的执行结果正常吗?

哈哈,我的问题你能帮忙解答吗

@d0v0h
Copy link
Author

d0v0h commented Nov 14, 2024

你好,虽然这是一个与问题无关的内容,但请问 inference.py 文件的执行结果正常吗?

哈哈,我的问题你能帮忙解答吗

感谢您的提问。 很抱歉,由于我不是这个代码的作者,所以无法准确回答您的问题。

@world2025
Copy link

我复现了跟你一样的问题了

@JusperLee
Copy link
Owner

我最近正在rebuttal期间,我会尽快查看这个问题。

@JusperLee
Copy link
Owner

https://github.com/JusperLee/IIANet/blob/main/inference.py

你们可以尝试一下新版本的代码。我这边测试没有问题

@world2025 @d0v0h

@JusperLee
Copy link
Owner

@world2025
Copy link

@JusperLee 用了新代码还是一样欸

@JusperLee
Copy link
Owner

我这边的测试没有任何问题。你首先确认一下,是否检测到两个人的人脸。

@world2025
Copy link

是两个人的,可以是多人吗

@world2025
Copy link

我再试试看

@JusperLee
Copy link
Owner

是两个人的,可以是多人吗

目前训练集只有两个说话人暂时支持两个,对于多个也可以调整inference的num_spk

你可以先试用tests文件夹下的video看看代码是否存在问题

@world2025
Copy link

我刚又测了一遍,是用tests video测的,也是一样的欸,weights下的是您提供的
image

@JusperLee
Copy link
Owner

你能提供一下你的inference code和weight么?

@JusperLee
Copy link
Owner

s1.mp4
s2.mp4

@world2025

This comment was marked as duplicate.

@world2025
Copy link

@JusperLee
Copy link
Owner

image

@JusperLee
Copy link
Owner

你提供一个文件链接包括所有的代码吧。要不然我也不知道是哪儿的问题。

我怀疑是你的权重没有正确加载。

@world2025
Copy link

image

我这里改了我自己的路径,为weights了

@world2025
Copy link

IIANetv2.zip
还麻烦您帮忙看下

@JusperLee
Copy link
Owner

image

@JusperLee
Copy link
Owner

https://drive.google.com/file/d/1Qm65E7Ea3wJxf-4iJvsohkUYesJR7dLh/view?usp=drive_link

我使用你的代码并且增加了权重

@world2025
Copy link

请问下我是哪里配置错了吗

@world2025
Copy link

请问下我是哪里配置错了吗

用您给我的zip代码确实没问题了

@world2025
Copy link

还有一个小小的问题,就是我这是num_speakers为2,有可能没检测到人脸,num_speakers超了检测框的数据,就会直接报错了,

@JusperLee
Copy link
Owner

我建议你可以复制一个之前的帧。

@world2025
Copy link

我建议你可以复制一个之前的帧。

好的谢谢,有个问题请问一下,您这个算法大概延时是多少,也就是模型的输入是多少帧

@world2025
Copy link

我建议你可以复制一个之前的帧。

好的谢谢,有个问题请问一下,您这个算法大概延时是多少,也就是模型的输入是多少帧

虽然训练数据是2s,25fps,我看代码推理的好像是没限制模型输入多少帧?

@JusperLee
Copy link
Owner

我们不是做流式的,所以不存在时延的问题。

@world2025
Copy link

我们不是做流式的,所以不存在时延的问题。
哦哦,那我理解是模型的输入对于视频的长度其实是没限制的对吧

@world2025
Copy link

我们不是做流式的,所以不存在时延的问题。
哦哦,那我理解是模型的输入对于视频的长度其实是没限制的对吧

我看代码好像是有多少帧的视频,就处理多少,不会截断多次处理,不知道我理解错了没

@JusperLee
Copy link
Owner

是这个意思

@world2025
Copy link

是这个意思

好的,谢谢,请问下可以改成流式的吗

@JusperLee
Copy link
Owner

可以改

@world2025
Copy link

可以改

可以给一些修改建议吗,想尝试做成推流的形式,谢谢

@JusperLee
Copy link
Owner

你可以尝试把卷积改成因果卷积。或者改成伪流式是一个segment,一个segment输入

@world2025
Copy link

你可以尝试把卷积改成因果卷积。或者改成伪流式是一个segment,一个segment输入

好的,谢谢,segment的方式就是帧切片对吧

@JusperLee
Copy link
Owner

是的

@world2025
Copy link

请问一下,训练数据支持不固定人数的数据吗

@JusperLee
Copy link
Owner

支持,因为这个模型的输出是目标说话人。

@world2025
Copy link

支持,因为这个模型的输出是目标说话人。

好的,谢谢,也就是不需要统一每一条数据的语音输出条数对吧

@world2025
Copy link

支持,因为这个模型的输出是目标说话人。

好的,谢谢,也就是不需要统一每一条数据的语音输出条数对吧

我看阿里那个ClearVoice的训练数据必须统一是几个人的语音条数输出

@world2025
Copy link

我在测试2s的3个人说话的时候反而3个模型效果都不太行,3、5、7、10会好些

@world2025
Copy link

请问一下,每一条的训练数据,我可以理解为是,输入是2s的音频+2s的某个人的mouth向量,输出就似乎这个人对应的音频是吗

@JusperLee
Copy link
Owner

支持,因为这个模型的输出是目标说话人。

好的,谢谢,也就是不需要统一每一条数据的语音输出条数对吧

我看阿里那个ClearVoice的训练数据必须统一是几个人的语音条数输出

我不清楚他的那个情况,我们这个训练就是两个说话人音频,输出目标说话人音频

@world2025
Copy link

支持,因为这个模型的输出是目标说话人。

好的,谢谢,也就是不需要统一每一条数据的语音输出条数对吧

我看阿里那个ClearVoice的训练数据必须统一是几个人的语音条数输出

我不清楚他的那个情况,我们这个训练就是两个说话人音频,输出目标说话人音频

好的,谢谢,其实你这个模型训练也可以混杂不同人数的音频对吧,输出就一个人的音频,我理解

@world2025
Copy link

请问下,audiomodel模块,推理的时候支持batch推理吗,多人的语音同步处理,谢谢

@world2025
Copy link

请问下,audiomodel模块,推理的时候支持batch推理吗,多人的语音同步处理,谢谢

搞定了

@d0v0h d0v0h closed this as completed Jan 16, 2025
@d0v0h d0v0h reopened this Jan 16, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants