Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

loss: nan, acc: 0.0 #125

Closed
1 of 2 tasks
rookie0607 opened this issue Jul 31, 2024 · 13 comments
Closed
1 of 2 tasks

loss: nan, acc: 0.0 #125

rookie0607 opened this issue Jul 31, 2024 · 13 comments

Comments

@rookie0607
Copy link

System Info

none

Information

  • The official example scripts
  • My own modified scripts

🐛 Describe the bug

Dear Developer: I'm running the script https://github.com/X-LANCE/SLAM-LLM/blob/main/examples/asr_librispeech/scripts/finetune_whisper_large_linear_vicuna_ 7b.sh, and unlike the original, I replaced LLM with Qwen2-1.5b, and I have a problem with the training, as shown below. loss: nan, acc: 0.0

[Training Epoch: 2/15, step 486/487 completed (loss: nan, acc: 0.0): 100%|██████████████████████| 487/487 [05:44<00:00,  1.41it/s]
Training Epoch: 2/15, step 486/487 completed (loss: nan, acc: 0.0): 100%|██████████████████████| 487/487 [05:44<00:00,  1.41it/s]
Training Epoch: 2/15, step 486/487 completed (loss: nan, acc: 0.0): 100%|██████████████████████| 487/487 [05:44<00:00,  1.41it/s]
Training Epoch: 2/15, step 486/487 completed (loss: nan, acc: 0.0): 100%|██████████████████████| 487/487 [05:44<00:00,  1.41it/s]]([url](url))

How can I continue the experiment? @ddlBoJack

Error logs

1

Expected behavior

1

@fclearner
Copy link

是不是某一步突然炸了的。。。

@rookie0607
Copy link
Author

是不是某一步突然炸了的。。。

关掉fp16就好了。。。
测试结果比较差。。

@fclearner
Copy link

是不是某一步突然炸了的。。。

关掉fp16就好了。。。 测试结果比较差。。

加数据

@yy835055664
Copy link

是不是某一步突然炸了的。。。

关掉fp16就好了。。。 测试结果比较差。。

你好,我也遇到这个问题了,但TrainConfig里面的use_fp16默认是False,你说的关掉fp16是指这个嘛?

@yy835055664
Copy link

是不是某一步突然炸了的。。。

你好,我在mala_asr_slidespeech中llm替换成qwen2.5,训练也出现loss:nan,acc:0.3左右;
image
有好的方法解决嘛?

@fclearner
Copy link

是不是某一步突然炸了的。。。

你好,我在mala_asr_slidespeech中llm替换成qwen2.5,训练也出现loss:nan,acc:0.3左右;
image
有好的方法解决嘛?

因为qwen是用bf16训的,用fp16容易数值溢出,具体可能是某些算子容易数值溢出

@yy835055664
Copy link

是不是某一步突然炸了的。。。

你好,我在mala_asr_slidespeech中llm替换成qwen2.5,训练也出现loss:nan,acc:0.3左右;
image
有好的方法解决嘛?

因为qwen是用bf16训的,用fp16容易数值溢出,具体可能是某些算子容易数值溢出

多谢,有个问题咨询您一下,尝试llm=llama3-chinese时,训练aishell,测试dev和test,效果都不好:
test:
image
dev效果也一样

这种情况您知道怎么解决嘛?

@fclearner
Copy link

是不是某一步突然炸了的。。。

你好,我在mala_asr_slidespeech中llm替换成qwen2.5,训练也出现loss:nan,acc:0.3左右;
image
有好的方法解决嘛?

因为qwen是用bf16训的,用fp16容易数值溢出,具体可能是某些算子容易数值溢出

多谢,有个问题咨询您一下,尝试llm=llama3-chinese时,训练aishell,测试dev和test,效果都不好: test: image dev效果也一样

这种情况您知道怎么解决嘛?
检查下你的prompt吧,看看是不是eos token有问题

@yy835055664
Copy link

是不是某一步突然炸了的。。。

你好,我在mala_asr_slidespeech中llm替换成qwen2.5,训练也出现loss:nan,acc:0.3左右;
image
有好的方法解决嘛?

因为qwen是用bf16训的,用fp16容易数值溢出,具体可能是某些算子容易数值溢出

多谢,有个问题咨询您一下,尝试llm=llama3-chinese时,训练aishell,测试dev和test,效果都不好: test: image dev效果也一样
这种情况您知道怎么解决嘛?
检查下你的prompt吧,看看是不是eos token有问题

prompt使用的默认: "Transcribe speech to text. "
这个是llama3-chinese的pos_token、eos_token
image
是因为prompt原因吗?如果是prompt一般怎么调

@fclearner
Copy link

是不是某一步突然炸了的。。。

你好,我在mala_asr_slidespeech中llm替换成qwen2.5,训练也出现loss:nan,acc:0.3左右;
image
有好的方法解决嘛?

因为qwen是用bf16训的,用fp16容易数值溢出,具体可能是某些算子容易数值溢出

多谢,有个问题咨询您一下,尝试llm=llama3-chinese时,训练aishell,测试dev和test,效果都不好: test: image dev效果也一样
这种情况您知道怎么解决嘛?
检查下你的prompt吧,看看是不是eos token有问题

prompt使用的默认: "Transcribe speech to text. " 这个是llama3-chinese的pos_token、eos_token image 是因为prompt原因吗?如果是prompt一般怎么调

参考这个:#128

@yy835055664
Copy link

是不是某一步突然炸了的。。。

你好,我在mala_asr_slidespeech中llm替换成qwen2.5,训练也出现loss:nan,acc:0.3左右;
image
有好的方法解决嘛?

因为qwen是用bf16训的,用fp16容易数值溢出,具体可能是某些算子容易数值溢出

你好,在将use_fp16=false时,训练速度很慢。如果想使用bf16,如何更改?

@fclearner
Copy link

是不是某一步突然炸了的。。。

你好,我在mala_asr_slidespeech中llm替换成qwen2.5,训练也出现loss:nan,acc:0.3左右;
image
有好的方法解决嘛?

因为qwen是用bf16训的,用fp16容易数值溢出,具体可能是某些算子容易数值溢出

你好,在将use_fp16=false时,训练速度很慢。如果想使用bf16,如何更改?

首先,你的显卡得支持,其次,deepspeed可以设置bf16,然后数据流的tensor type留意下

@yy835055664
Copy link

是不是某一步突然炸了的。。。

你好,我在mala_asr_slidespeech中llm替换成qwen2.5,训练也出现loss:nan,acc:0.3左右;
image
有好的方法解决嘛?

因为qwen是用bf16训的,用fp16容易数值溢出,具体可能是某些算子容易数值溢出

你好,在将use_fp16=false时,训练速度很慢。如果想使用bf16,如何更改?

首先,你的显卡得支持,其次,deepspeed可以设置bf16,然后数据流的tensor type留意下

多谢,如果将use_fp16=false,默认使用什么数据类型进行训练?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants