请问如何增加/修改词表vocab.txt #2

Crescentz · 2020-09-25T14:16:40Z

bert的中文vocab.txt的汉字太少了，请问垂直领域遇到这样情况是怎么增加自己的token呢，【unused】不够用

ZhuiyiTechnology · 2020-09-27T03:12:05Z

1、把它们加入到vocab.txt里边
2、通过compound_tokens参数追加。

以上只适合bert4keras，可以仔细琢磨一下训练脚本中追加词的方法：https://github.com/ZhuiyiTechnology/WoBERT/blob/master/train.py

yuhaiyan-77 · 2024-10-09T04:18:23Z

您好，我无法下载文件请问还有没有别的办法下载模型

alanbreeze · 2024-10-09T08:07:57Z

已恢复下载

Provide feedback