GGUF 量化模型。
llama 模式启动后提示不支持 qwen2,报错为:unknown model architecture: 'qwen2'
相关 issue: SakuraLLM#92 SakuraLLM#71
原因,旧版本 llama_cpp_python 不支持 qwen2,需要按照 cuda 版本更新,如果没有按照 cuda 版本更新可能会不使用显卡。
# 卸载原有旧版本 llama-cpp-python
pip uninstall llama-cpp-python
# 安装新版,cuda-version 为 cu121、cu122、cu123、cu124,python 版本仅支持 3.10、3.11、3.12
pip install llama-cpp-python
--extra-index-url https://abetlen.github.io/llama-cpp-python/whl/
#假设为 cuda 12.1
pip install llama-cpp-python
--extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121
以运行 sakura-13b-lnovel-v0.9b-Q4_K_M.gguf 模型为例:
python server.py \
--model_name_or_path ./models/sakura-13b-lnovel-v0.9b-Q4_K_M.gguf \
--llama_cpp \
--use_gpu \
--model_version 0.9 \
--trust_remote_code \
--no-auth
# 通用参数
--model_name_or_path: GGUF 模型路径
--model_version: 0.9, 0.8
--no-auth: 强制禁用身份验证
# llama.cpp 特有参数
--llama_cpp: 启动 llama.cpp 推理引擎
--use_gpu: llama.cpp 使用 GPU 进行推理
--n_gpu_layers: 加载至 GPU 的模型层数
vLLM 是一个快速且易于使用的 LLM 分布式推理和服务库。
优势:
- 支持 PagedAttention。
- 支持 tensor parallel 多 GPU 推理加速。
- 支持 GPTQ, AWQ, SqueezeLLM, FP8 KV Cache 等量化方法。
- 支持 NVIDIA GPU 和 AMD GPU(实验性,未测试)。
- 与 HuggingFace Transformers 模型无缝集成。
劣势:
- Sakura13B v0.9 与 v0.10 仅能运行全量模型(目前 SakuraLLM 未提供量化模型),显存用量高于 llama.cpp 与 ollama。
- 仅支持 4bit 量化,且量化存在 bug,效果不如直接运行全量模型。
- 由于存在部分依赖冲突,依赖安装相对繁琐。
Transformers 模型(包括 GPTQ 4bit 量化与 AWQ 量化)。
- 首先运行以下命令安装 vllm 库(必须先运行这一步,否则会有依赖冲突导致无法安装):
pip install vllm
- 运行以下命令安装运行 vllm 后端的其余依赖库:
pip install -r requirements.vllm.txt
以运行 SakuraLLM/Sakura-13B-LNovel-v0.9 模型为例:
python server.py \
--model_name_or_path SakuraLLM/Sakura-13B-LNovel-v0.9 \
--vllm \
--model_version 0.9 \
--trust_remote_code \
--no-auth \
--tensor_parallel_size 2 \
--enforce_eager
# 通用参数
--model_name_or_path: transformers 模型 tag
--model_version: 0.9, 0.8
--use_gptq_model: 使用 GPTQ 量化模型
--use_awq_model: 使用 AWQ 量化模型
--trust_remote_code: 允许不安全代码
--no-auth: 强制禁用身份验证
# vllm 特有参数
--vllm: 启动 vllm 推理引擎
--enforce_eager: 启用 eager 模式,可减少显存用量
--tensor_parallel_size: tensor parallel 的规模,一般取可用的 GPU 数量
--gpu_memory_utilization: 0~1, vllm 推理引擎可用的每个 GPU 显存比例
原项目地址:ollama/ollama
优势:
- 安装运行简便,使用 docker 对模型进行管理。
- 对于 kaggle 环境,从 ollama library 拉取模型速度快于 huggingface 仓库,可进行 API Server 快速部署。
劣势:
- 使用 ollama 私有格式模型,需要对 gguf 和 PyTorch/Safetensors 格式模型进行转换。
ollama 私有格式模型,可从 GGUF 和 PyTorch/Safetensors 格式模型进行转换,转换方法参见 issue #49 与 ollama 文档。
Sakura 相关模型地址(第三方维护):
- 从ollama 官网下载并安装 ollama 程序,用于自动下载 ollama 模型。
- 运行以下命令安装运行 ollama 后端的依赖库:
pip install -r requirements.ollama.txt
以运行 onekuma 维护的 sakura-13b-lnovel-v0.9b-q2_k 模型为例:
python server.py \
--model_name_or_path onekuma/sakura-13b-lnovel-v0.9b-q2_k \
--ollama \
--model_version 0.9 \
--trust_remote_code \
--no-auth
# 通用参数
--model_name_or_path: ollama 模型 tag (不支持文件路径)
--model_version: 0.9
--no-auth: 强制禁用身份验证
# ollama 特有参数
--ollama: 启动 ollama 推理引擎