We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
你好,你的工作很有意义,但是出现了一些相信让很多人都疑惑的问题。
这是我对你工作的理解:第一阶段,使用VQVAE模型作为动作编码器解码器。使用vae模型和对比学习得到了TMR,让文本特征和动作特征进行对齐。第二阶段,使用TMR得到的文本嵌入来预测codebook indices序列,然后通过VQVAE的动作解码器解码为原始动作。
请问以上我的理解对吗?
关于第一阶段,TMR得到的动作特征是基于vae模型得到的,而论文中第一阶段是基于vqvae作为动作编码解码模型,在第二阶段使用的动作解码器模型也是基于vqvae的动作解码器,那么哪怕TMR使用对比学习将文本特征和动作特征对齐,也只是对齐vae作为动作编码器的动作特征,而codebook indices序列是通过vqvae得到的,好像并没有将文本特征和codebook indices序列对齐?
关于第二阶段Hierarchical-GPT,你的代码并没有开源。文本嵌入特征作为输入,codebook indices序列作为输出,而codebook indices序列只是离散的索引数字,和文本嵌入特征好像并没有强关联的语义特征,通过交叉熵损失,怎么就可以确保输入文本找到对应的codebook indices序列?通过实验发现,验证集和测试集的交叉熵损失甚至达到2~3左右。
希望你可以回答我的问题,谢谢!
The text was updated successfully, but these errors were encountered:
No branches or pull requests
你好,你的工作很有意义,但是出现了一些相信让很多人都疑惑的问题。
这是我对你工作的理解:第一阶段,使用VQVAE模型作为动作编码器解码器。使用vae模型和对比学习得到了TMR,让文本特征和动作特征进行对齐。第二阶段,使用TMR得到的文本嵌入来预测codebook indices序列,然后通过VQVAE的动作解码器解码为原始动作。
请问以上我的理解对吗?
关于第一阶段,TMR得到的动作特征是基于vae模型得到的,而论文中第一阶段是基于vqvae作为动作编码解码模型,在第二阶段使用的动作解码器模型也是基于vqvae的动作解码器,那么哪怕TMR使用对比学习将文本特征和动作特征对齐,也只是对齐vae作为动作编码器的动作特征,而codebook indices序列是通过vqvae得到的,好像并没有将文本特征和codebook indices序列对齐?
关于第二阶段Hierarchical-GPT,你的代码并没有开源。文本嵌入特征作为输入,codebook indices序列作为输出,而codebook indices序列只是离散的索引数字,和文本嵌入特征好像并没有强关联的语义特征,通过交叉熵损失,怎么就可以确保输入文本找到对应的codebook indices序列?通过实验发现,验证集和测试集的交叉熵损失甚至达到2~3左右。
希望你可以回答我的问题,谢谢!
The text was updated successfully, but these errors were encountered: