dvc.yaml

stages:

  add-chessmoves-to-model-vocab:
    cmd: python src/entrypoint.py add-chessmoves-to-model-vocab
    deps:
    - src/model/add_chessmoves_to_vocabulary.py
    outs:
    - outputs/untrained-model-w-vocab/
    params:
    - stages.add-chessmoves-to-model-vocab

  generate-causal-dataset:
    cmd: python src/entrypoint.py generate-causal-dataset
    deps:
    - src/data_processing/generate_causal_dataset.py
    outs:
    - outputs/causal-dataset/
    params:
    - stages.generate-causal-dataset
  
  train-model-on-new-vocab:
    cmd: python src/entrypoint.py train-model-on-new-vocab
    deps:
    - outputs/causal-dataset/
    - outputs/untrained-model-w-vocab/
    outs:
    - outputs/causal/
    params:
    - stages.train-model-on-new-vocab

  merge-causal-adapter-to-model:
    cmd: python src/entrypoint.py merge-causal-adapter-to-model
    deps:
    - outputs/causal/
    outs:
    - outputs/causal-merged/
    params:
    - merge-causal-adapter-to-model

  create-task-find-last-move:
    cmd: python src/entrypoint.py create-task-find-last-move
    deps:
    - src/tasks/create_task_find_last_move.py
    outs:
    - outputs/tasks/findLastMove.parquet
    params:
    - stages.create-task-find-last-move

  create-task-find-score:
    cmd: python src/entrypoint.py create-task-find-score
    deps:
    - src/tasks/create_task_find_score.py
    outs:
    - outputs/tasks/findScore.parquet
    params:
    - stages.create-task-find-score

  create-task-MLM-on-moves:
    cmd: python src/entrypoint.py create-task-MLM-on-moves
    deps:
    - src/tasks/create_task_MLM_on_moves.py
    outs:
    - outputs/tasks/MLM.parquet
    params:
    - stages.create-task-MLM-on-moves

  create-task-find-who-is-winning:
    cmd: python src/entrypoint.py create-task-find-who-is-winning
    deps:
    - src/tasks/create_task_find_who_is_winning.py
    outs:
    - outputs/tasks/whoIsWinning.parquet
    params:
    - stages.create-task-find-who-is-winning

  create-task-sort-FENs:
    cmd: python src/entrypoint.py create-task-sort-FENs
    deps:
    - src/tasks/create_task_sort_FENs.py
    outs:
    - outputs/tasks/sortFENs.parquet
    params:
    - stages.create-task-sort-FENs

  create-task-find-next-best-move:
    cmd: python src/entrypoint.py create-task-find-next-best-move
    deps:
    - src/tasks/create_task_find_next_best_move.py
    outs:
    - outputs/tasks/bestMove.parquet
    params:
    - stages.create-task-find-next-best-move

  merge-tasks-into-dataset:
    cmd: python src/entrypoint.py merge-tasks-into-dataset
    deps:
    - src/data_processing/merge_tasks_into_dataset.py
    - outputs/tasks/findLastMove.parquet
    - outputs/tasks/findScore.parquet
    - outputs/tasks/sortFENs.parquet
    - outputs/tasks/whoIsWinning.parquet
    # - outputs/tasks/bestAndWorstPositions.parquet
    - outputs/tasks/bestMove.parquet
    - outputs/tasks/MLM.parquet
    outs:
    - outputs/raw/
    params:
    - stages.merge-tasks-into-dataset

  generate-instruct-dataset:
    cmd: python src/entrypoint.py generate-instruct-dataset
    deps:
    - src/data_processing/generate_ready_to_use_dataset.py # TODO: rename module
    - outputs/raw/
    outs:
    - outputs/instruct-dataset/
    params:
    - stages.generate-instruct-dataset

  train-instruct-model:
    cmd: python src/entrypoint.py train-instruct-model
    outs:
    - outputs/instruct/
    deps:
    - outputs/instruct-dataset/
    - outputs/causal-merged/
    params:
    - stages.train-instruct-model

  merge-instruct-adapter-to-model:
    cmd: python src/entrypoint.py merge-instruct-adapter-to-model
    deps:
    - outputs/instruct/
    outs:
    - outputs/instruct-merged/
    params:
    - merge-instruct-adapter-to-model