ge-xing · A-transformer · Nov 19, 2024 · Nov 19, 2024
diff --git a/mamba/benchmarks/benchmark_generation_mamba_simple.py b/mamba/benchmarks/benchmark_generation_mamba_simple.py
@@ -16,6 +16,7 @@
 
 parser = argparse.ArgumentParser(description="Generation benchmarking")
 parser.add_argument("--model-name", type=str, default="state-spaces/mamba-130m")
+parser.add_argument("--tokenizer-path", type=str, default=None, help="Path to the tokenizer")
 parser.add_argument("--prompt", type=str, default=None)
 parser.add_argument("--promptlen", type=int, default=100)
 parser.add_argument("--genlen", type=int, default=100)
@@ -33,11 +34,14 @@
 is_mamba = args.model_name.startswith("state-spaces/mamba-") or "mamba" in args.model_name
 
 if is_mamba:
-    tokenizer = AutoTokenizer.from_pretrained("/home/zhulianghui/VisionProjects/mamba/ckpts/gpt-neox-20b-tokenizer")
+    if args.tokenizer_path is None:
+        raise ValueError("For Mamba models, --tokenizer-path must be specified.")
+    tokenizer = AutoTokenizer.from_pretrained(args.tokenizer_path)
     model = MambaLMHeadModel.from_pretrained(args.model_name, device=device, dtype=dtype)
 else:
-    tokenizer = AutoTokenizer.from_pretrained(args.model_name)
+    tokenizer = AutoTokenizer.from_pretrained(args.tokenizer_path or args.model_name)
     model = AutoModelForCausalLM.from_pretrained(args.model_name, device_map={"": device}, torch_dtype=dtype)
+
 model.eval()
 print(f"Number of parameters: {sum(p.numel() for p in model.parameters() if p.requires_grad)}")