UTAUの音源ファイルからSOFAとMakeDiffSingerを用いて、学習前のデータセットを生成する
- C++ によるデスクトップ開発 (Visual Studio)
- CMake
- Python 3.12未満 (3.10.11にてテスト済み)
- このリポジトリをsubmoduleを含めcloneする
git clone --recursive
- 仮想環境を構築し、入る
python -m venv .venv .venv/scripts/activate
- 必要なモジュールをインストールする
pip install -r requirements.txt pip install -r src/SOFA/requirements.txt pip install -r src/MakeDiffSinger/acoustic_forced_alignment/requirements.txt pip install -r src/MakeDiffSinger/variance-temp-solution/requirements.txt
- PyTorchの公式サイトにて、セットアップをする
- 日本語のSOFAモデルをダウンロードし、解凍後中にある「japanese-v2.0-45000.ckpt」を「src/cktp」に配置し、同じく「japanese-dictionary.txt」を「src/dictionaries」に配置する
- src/main.py の args に音源フォルダを一つ(もしくは複数)渡し起動する
python src/main.py example/A3 example/A2 example/A4