Pełna dokumentacja serwera: https://github.com/ggerganov/llama.cpp/blob/master/examples/server/README.md
docker
Można też uruchomić Backend AI llama.cpp w oparciu o plik docker-compose.llamacpp.yml
. W tym celu należy utworzyć plik .env
, w którym znajdą się dwie zmienne definiujące wariant serwera oraz ścieżkę lokalną do pliku modelu, np.:
LLAMA_VARIANT=full MODEL_PATH=U:\ml\krakowiak-7b.gguf.q4_k_m.bin
Dostępne warianty to: full
(CPU), full-cuda
(NVIDIA GPU) i full-rocm
(AMD ROCm GPU).
Uruchomienie:
docker compose -f docker-compose.llamacpp.yml up
Konfiguracja Backendu AI
W pliku Game.Api/appsettings.json
, możesz zdefiniować ścieżkę do URL serwera
llama.cpp: