RoPE bias #7

JaheimLee · 2023-04-11T05:56:37Z

llama应该默认没有启用bias项。但按照苏神最新思路，把q,k的bias项加回来可以明显提升长度外推性能，作者考虑预训练测试一下不
https://kexue.fm/archives/9577

s-JoL · 2023-04-11T06:35:53Z

赞，再预训练的时候我会加上

chensongcan · 2023-04-24T07:23:21Z

请问目前公开的代码预训练的时候加上bias项了吗

s-JoL · 2023-04-24T09:57:10Z

目前加上bias项的还在训练中，将在训练好之后再release出相应代码

chensongcan · 2023-04-24T09:59:51Z

这个项目是基于llama从0开始训练是吗

Provide feedback