inference.py Audio results are weird. #4

d0v0h · 2024-11-10T04:35:40Z

When I run inference.py , the results for video_tracked1.mp4 and video_trcked2.mp4 are good, but the audio output results are weird.
The two audio output results are almost identical.

Is it correct to download the model from the path below?

lrw_resnet18_mstcn.pth.tar : https://drive.google.com/file/d/1RSV4nr0C7MxDWH0FnNyR8ldjjtPOiZFq/view
checkpoints/vox2/ : https://github.com/JusperLee/IIANet/releases/download/v1.0.0/vox2.zip

Thank you for reading my post.

world2025 · 2024-11-13T09:22:15Z

@JusperLee 请问一下，该inference.py支持分别上传音频和视频吗

world2025 · 2024-11-13T09:25:19Z

@JusperLee 请问一下，该inference.py支持分别上传音频和视频吗

而且是实时的推理音频和视频

world2025 · 2024-11-13T09:34:34Z

@JusperLee 请问一下，该inference.py支持分别上传音频和视频吗

而且是实时的推理音频和视频

还就是想问下目前只支持2个人的视频吗

d0v0h · 2024-11-13T10:05:29Z

你好，虽然这是一个与问题无关的内容，但请问 inference.py 文件的执行结果正常吗？

world2025 · 2024-11-14T02:44:53Z

你好，虽然这是一个与问题无关的内容，但请问 inference.py 文件的执行结果正常吗？

哈哈，我的问题你能帮忙解答吗

d0v0h · 2024-11-14T03:07:00Z

你好，虽然这是一个与问题无关的内容，但请问 inference.py 文件的执行结果正常吗？

哈哈，我的问题你能帮忙解答吗

感谢您的提问。很抱歉，由于我不是这个代码的作者，所以无法准确回答您的问题。

world2025 · 2024-11-14T04:13:05Z

我复现了跟你一样的问题了

JusperLee · 2024-11-14T08:44:19Z

我最近正在rebuttal期间，我会尽快查看这个问题。

JusperLee · 2024-11-22T11:12:56Z

https://github.com/JusperLee/IIANet/blob/main/inference.py

你们可以尝试一下新版本的代码。我这边测试没有问题

@world2025 @d0v0h

JusperLee · 2024-11-22T11:15:28Z

https://github.com/JusperLee/IIANet/releases/download/v1.0.1/vox2.zip

world2025 · 2024-11-25T08:01:47Z

@JusperLee 用了新代码还是一样欸

JusperLee · 2024-11-25T08:17:57Z

我这边的测试没有任何问题。你首先确认一下，是否检测到两个人的人脸。

world2025 · 2024-11-25T08:28:43Z

是两个人的，可以是多人吗

world2025 · 2024-11-25T08:28:51Z

我再试试看

JusperLee · 2024-11-25T08:56:12Z

是两个人的，可以是多人吗

目前训练集只有两个说话人暂时支持两个，对于多个也可以调整inference的num_spk

你可以先试用tests文件夹下的video看看代码是否存在问题

world2025 · 2024-11-25T09:00:10Z

我刚又测了一遍，是用tests video测的，也是一样的欸，weights下的是您提供的

JusperLee · 2024-11-25T09:01:49Z

你能提供一下你的inference code和weight么？

JusperLee · 2024-11-25T09:02:44Z

s1.mp4

s2.mp4

world2025 · 2024-11-25T09:05:06Z

https://github.com/JusperLee/IIANet/releases/download/v1.0.1/vox2.zip

这个新的weights

JusperLee · 2024-11-25T09:05:17Z

JusperLee · 2024-11-25T09:06:39Z

你提供一个文件链接包括所有的代码吧。要不然我也不知道是哪儿的问题。

我怀疑是你的权重没有正确加载。

world2025 · 2024-11-25T09:09:33Z

我这里改了我自己的路径，为weights了

world2025 · 2024-11-25T09:12:46Z

IIANetv2.zip
还麻烦您帮忙看下

JusperLee · 2024-11-25T10:25:59Z

JusperLee · 2024-11-25T10:29:44Z

https://drive.google.com/file/d/1Qm65E7Ea3wJxf-4iJvsohkUYesJR7dLh/view?usp=drive_link

我使用你的代码并且增加了权重

world2025 · 2024-11-25T11:04:07Z

请问下我是哪里配置错了吗

world2025 · 2024-11-25T11:15:11Z

请问下我是哪里配置错了吗

用您给我的zip代码确实没问题了

world2025 · 2024-11-26T07:13:22Z

还有一个小小的问题，就是我这是num_speakers为2，有可能没检测到人脸，num_speakers超了检测框的数据，就会直接报错了，

JusperLee · 2024-12-02T12:43:47Z

我建议你可以复制一个之前的帧。

world2025 · 2024-12-04T07:33:07Z

我建议你可以复制一个之前的帧。

好的谢谢，有个问题请问一下，您这个算法大概延时是多少，也就是模型的输入是多少帧

world2025 · 2024-12-04T11:57:01Z

我建议你可以复制一个之前的帧。

好的谢谢，有个问题请问一下，您这个算法大概延时是多少，也就是模型的输入是多少帧

虽然训练数据是2s,25fps，我看代码推理的好像是没限制模型输入多少帧？

JusperLee · 2024-12-05T02:36:15Z

我们不是做流式的，所以不存在时延的问题。

world2025 · 2024-12-05T02:59:21Z

我们不是做流式的，所以不存在时延的问题。
哦哦，那我理解是模型的输入对于视频的长度其实是没限制的对吧

world2025 · 2024-12-05T03:04:39Z

我们不是做流式的，所以不存在时延的问题。
哦哦，那我理解是模型的输入对于视频的长度其实是没限制的对吧

我看代码好像是有多少帧的视频，就处理多少，不会截断多次处理，不知道我理解错了没

JusperLee · 2024-12-05T03:12:56Z

是这个意思

world2025 · 2024-12-05T03:21:15Z

是这个意思

好的，谢谢，请问下可以改成流式的吗

JusperLee · 2024-12-05T03:24:30Z

可以改

world2025 · 2024-12-05T03:28:30Z

可以改

可以给一些修改建议吗，想尝试做成推流的形式，谢谢

JusperLee · 2024-12-06T06:19:10Z

你可以尝试把卷积改成因果卷积。或者改成伪流式是一个segment，一个segment输入

world2025 · 2024-12-06T07:37:17Z

你可以尝试把卷积改成因果卷积。或者改成伪流式是一个segment，一个segment输入

好的，谢谢，segment的方式就是帧切片对吧

JusperLee · 2024-12-08T08:09:00Z

是的

world2025 · 2024-12-10T03:12:36Z

请问一下，训练数据支持不固定人数的数据吗

JusperLee · 2024-12-10T15:33:10Z

支持，因为这个模型的输出是目标说话人。

world2025 · 2024-12-11T03:04:55Z

支持，因为这个模型的输出是目标说话人。

好的，谢谢，也就是不需要统一每一条数据的语音输出条数对吧

world2025 · 2024-12-11T03:44:04Z

支持，因为这个模型的输出是目标说话人。

好的，谢谢，也就是不需要统一每一条数据的语音输出条数对吧

我看阿里那个ClearVoice的训练数据必须统一是几个人的语音条数输出

world2025 · 2024-12-11T08:04:00Z

我在测试2s的3个人说话的时候反而3个模型效果都不太行，3、5、7、10会好些

world2025 · 2024-12-11T09:10:13Z

请问一下，每一条的训练数据，我可以理解为是，输入是2s的音频+2s的某个人的mouth向量，输出就似乎这个人对应的音频是吗

JusperLee · 2024-12-12T09:37:44Z

支持，因为这个模型的输出是目标说话人。

好的，谢谢，也就是不需要统一每一条数据的语音输出条数对吧

我看阿里那个ClearVoice的训练数据必须统一是几个人的语音条数输出

我不清楚他的那个情况，我们这个训练就是两个说话人音频，输出目标说话人音频

world2025 · 2024-12-13T09:15:32Z

支持，因为这个模型的输出是目标说话人。

好的，谢谢，也就是不需要统一每一条数据的语音输出条数对吧

我看阿里那个ClearVoice的训练数据必须统一是几个人的语音条数输出

我不清楚他的那个情况，我们这个训练就是两个说话人音频，输出目标说话人音频

好的，谢谢，其实你这个模型训练也可以混杂不同人数的音频对吧，输出就一个人的音频，我理解

world2025 · 2025-01-06T10:08:30Z

请问下，audiomodel模块，推理的时候支持batch推理吗，多人的语音同步处理，谢谢

world2025 · 2025-01-07T08:39:59Z

请问下，audiomodel模块，推理的时候支持batch推理吗，多人的语音同步处理，谢谢

搞定了

This comment was marked as duplicate.

Sign in to view

d0v0h closed this as completed Jan 16, 2025

d0v0h reopened this Jan 16, 2025

inference.py Audio results are weird. #4

inference.py Audio results are weird. #4

Comments

d0v0h commented Nov 10, 2024

world2025 commented Nov 13, 2024

world2025 commented Nov 13, 2024

world2025 commented Nov 13, 2024

d0v0h commented Nov 13, 2024

world2025 commented Nov 14, 2024

d0v0h commented Nov 14, 2024

world2025 commented Nov 14, 2024

JusperLee commented Nov 14, 2024

JusperLee commented Nov 22, 2024

JusperLee commented Nov 22, 2024

world2025 commented Nov 25, 2024

JusperLee commented Nov 25, 2024

world2025 commented Nov 25, 2024

world2025 commented Nov 25, 2024

JusperLee commented Nov 25, 2024

world2025 commented Nov 25, 2024

JusperLee commented Nov 25, 2024

JusperLee commented Nov 25, 2024

This comment was marked as duplicate.

world2025 commented Nov 25, 2024

JusperLee commented Nov 25, 2024

JusperLee commented Nov 25, 2024

world2025 commented Nov 25, 2024

world2025 commented Nov 25, 2024

JusperLee commented Nov 25, 2024

JusperLee commented Nov 25, 2024

world2025 commented Nov 25, 2024

world2025 commented Nov 25, 2024

world2025 commented Nov 26, 2024

JusperLee commented Dec 2, 2024

world2025 commented Dec 4, 2024

world2025 commented Dec 4, 2024

JusperLee commented Dec 5, 2024

world2025 commented Dec 5, 2024

world2025 commented Dec 5, 2024

JusperLee commented Dec 5, 2024

world2025 commented Dec 5, 2024

JusperLee commented Dec 5, 2024

world2025 commented Dec 5, 2024

JusperLee commented Dec 6, 2024

world2025 commented Dec 6, 2024

JusperLee commented Dec 8, 2024

world2025 commented Dec 10, 2024

JusperLee commented Dec 10, 2024

world2025 commented Dec 11, 2024

world2025 commented Dec 11, 2024

world2025 commented Dec 11, 2024

world2025 commented Dec 11, 2024

JusperLee commented Dec 12, 2024

world2025 commented Dec 13, 2024

world2025 commented Jan 6, 2025

world2025 commented Jan 7, 2025