From 967eaba573ed208fe9c8e49d84b591b1180a93b5 Mon Sep 17 00:00:00 2001
From: pandyamarut <pandyamarut@gmail.com>
Date: Fri, 9 Aug 2024 14:41:07 -0700
Subject: [PATCH] change to float

Signed-off-by: pandyamarut <pandyamarut@gmail.com>
---
 README.md          | 2 +-
 src/engine_args.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/README.md b/README.md
index 1633a74..7c567c2 100644
--- a/README.md
+++ b/README.md
@@ -18,7 +18,7 @@ Deploy OpenAI-Compatible Blazing-Fast LLM Endpoints powered by the [vLLM](https:
 ### 1. UI for Deploying vLLM Worker on RunPod console:
 ![Demo of Deploying vLLM Worker on RunPod console with new UI](media/ui_demo.gif)
 
-### 2. Worker vLLM `v1.1` with vLLM `0.5.3` now available under `stable` tags
+### 2. Worker vLLM `v1.2.0` with vLLM `0.5.4` now available under `stable` tags
 Update v1.1 is now available, use the image tag `runpod/worker-v1-vllm:stable-cuda12.1.0`.
 
 ### 3. OpenAI-Compatible [Embedding Worker](https://github.com/runpod-workers/worker-infinity-embedding) Released
diff --git a/src/engine_args.py b/src/engine_args.py
index 0436de5..2f37696 100644
--- a/src/engine_args.py
+++ b/src/engine_args.py
@@ -15,7 +15,7 @@
 DEFAULT_ARGS = {
     "disable_log_stats": os.getenv('DISABLE_LOG_STATS', 'False').lower() == 'true',
     "disable_log_requests": os.getenv('DISABLE_LOG_REQUESTS', 'False').lower() == 'true',
-    "gpu_memory_utilization": int(os.getenv('GPU_MEMORY_UTILIZATION', 0.9)),
+    "gpu_memory_utilization": float(os.getenv('GPU_MEMORY_UTILIZATION', 0.95)),
     "pipeline_parallel_size": int(os.getenv('PIPELINE_PARALLEL_SIZE', 1)),
     "tensor_parallel_size": int(os.getenv('TENSOR_PARALLEL_SIZE', 1)),
     "served_model_name": os.getenv('SERVED_MODEL_NAME', None),