[Readme] update guidance for llm mode

PSAL-POSTECH · Dec 10, 2024 · 44b83bd · 44b83bd
1 parent 2c08ae4
commit 44b83bd
Show file tree

Hide file tree

Showing 3 changed files with 37 additions and 2 deletions.
diff --git a/README.md b/README.md
@@ -46,6 +46,8 @@ $ python3 ./scripts/generate_transformer_onnx.py --model gpt2
 $ python3 ./scripts/generate_transformer_onnx.py --model bert
 ```
 
+## Custom format
+ONNXim suppo
 ------------
 
 ## Hardware Configuration
@@ -129,6 +131,33 @@ $ cd ..
 $ ./build/bin/Simulator --config ./configs/systolic_ws_128x128_c4_simple_noc_tpuv4.json --model ./example/models_list.json
 ```
 
+ONNXim supports custom model formats, with models like Llama and OPT implemented using this feature. Based on this, iteration-level scheduling policy is implemented.
+
+Below is an example of how to execute it (**Note**: You have to add `--language` option):
+
+```
+$ ./build/bin/Simulator --config ./configs/systolic_ws_128x128_c4_simple_noc_tpuv4.json --models_list example/language_models.json --mode language
+```
+
+`language_models.json` is structured as follows:
+```
+{
+  "models": [
+    {
+      "name": "opt-125m",
+      "trace_file": "input.csv",
+      "scheduler": "simple",
+      "scheduler_config": {
+        "max_batch_size": 8
+      }
+    }
+  ]
+}
+```
+- name: Specifies the LLM model to be selected.
+- trace_file: Sets the request trace file.
+- scheduler: Defines the scheduling policy to be used.
+
 ------------
 ## Result
 

diff --git a/models/language_models/opt-125m.json b/models/language_models/opt-125m.json
@@ -7,5 +7,8 @@
   "hidden_size" : 768,
   "intermediate_size" : 3072,
   "ffn_type" : "default",
-  "max_seq_length" : 2048
+  "max_seq_length" : 2048,
+  "run_single_layer": true,
+  "tensor_parallel_size" : 1,
+  "pipeline_parallel_size" : 1
 }
diff --git a/models/language_models/opt-66b.json b/models/language_models/opt-66b.json
@@ -7,5 +7,8 @@
   "hidden_size" : 9216,
   "intermediate_size" : 36864,
   "ffn_type" : "default",
-  "max_seq_length" : 2048
+  "max_seq_length" : 2048,
+  "run_single_layer": true,
+  "tensor_parallel_size" : 1,
+  "pipeline_parallel_size" : 1
 }