请问如何从头训练一个自己的512x512模型？ #86

wangaocheng · 2025-01-15T08:26:46Z

如果用现有作者模型进行训练，应该是256x256的对不？
我想用自己的2K视频训练自己的512x512模型，请问详细步骤我应该怎么做？
@chunyu-li 求帮助。

chunyu-li · 2025-01-15T08:32:09Z

请参考 issue #12

wangaocheng · 2025-01-15T08:57:22Z

请参考 issue #12

感谢大佬的回复，这篇帖子我看过，我目前有几个疑问：

选择支持 512x512 尺寸的 VAE，例如https://huggingface.co/stable-diffusion-v1-5/stable-diffusion-v1-5/tree/main/vae
使用数据处理管道重新处理数据以将其保存为512x512的视频，注意您需要准备大量高分辨率视频（脸部区域> 512x512）。
使用我们的代码在 512x512 上训练 SyncNet，请注意，您需要更改 SyncNet 的架构（配置文件）以使其输出 1xD 嵌入。
在新训练的 SyncNet 的监督下训练 U-Net

关于第一个问题 https://huggingface.co/stable-diffusion-v1-5/stable-diffusion-v1-5/tree/main/vae 我下载后应该放在哪个目录？目前您的训练代码如何使用这个vae模型？

第二个问题我已经准备好了。

第三个问题，SyncNet的配置文件我应该怎么改？

比如first_stage.yaml中我出了修改 resolution: 256 为 512，还需要做什么调整吗？
syncnet_16_pixel.yaml 中我修改resolution: 256 为512，那model下的audio_encoder和visual_encoder是否可以给我一个训练512x512的配置？

非常感谢你的支持和帮助。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问如何从头训练一个自己的512x512模型？ #86

请问如何从头训练一个自己的512x512模型？ #86

wangaocheng commented Jan 15, 2025

chunyu-li commented Jan 15, 2025

wangaocheng commented Jan 15, 2025

请问如何从头训练一个自己的512x512模型？ #86

请问如何从头训练一个自己的512x512模型？ #86

Comments

wangaocheng commented Jan 15, 2025

chunyu-li commented Jan 15, 2025

wangaocheng commented Jan 15, 2025