Skip to content

Latest commit

 

History

History

sarashina_evaluation

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 

Sarashina の評価

SB Intuitions のテックブログで行った評価を再現するための設定ファイルをまとめたディレクトリです。

モデルと評価設定の設定ファイルを以下のように設定して flexeval_lm のコマンドを実行すると、評価が実行されます。

flexeval_lm \
  --language_model "examples/sarashina_evaluation/models/sarashina2-7b.jsonnet" \
  --eval_setup "examples/sarashina_evaluation/eval_setups/aio.jsonnet" \
  --save_dir "results/sarashina2-7b/aio"

各モデル × データセットの評価値

モデル aio (exact_match) jcomqa (exact_match) jemhopqa (exact_match) jsquad (exact_match) niilcqa (exact_match)
sarashina1-7B 0.6970 0.6953 0.4530 0.7778 0.4444
sarashina2-7B 0.7330 0.8606 0.5556 0.8566 0.5000
sarashina1-13B 0.7710 0.7712 0.4444 0.7816 0.4877
sarashina2-13B 0.8080 0.8990 0.6496 0.8856 0.5679
sarashina1-65B 0.8710 0.8409 0.6068 0.8521 0.5370

Warning

設定ファイルを使用することで評価設定を揃えても、上記とわずかに異なるスコアが得られることがあります。これは行列計算の順序が外部環境依存であり、低精度数値表現 (e.g., bfloat16) においてはその順序が出力数値の差となって現れる場合があるためです(参考).