neuralmagic · robertgshaw2-redhat · Mar 23, 2024 · Mar 23, 2024 · Mar 23, 2024 · mgoin
diff --git a/src/sparseml/transformers/finetune/data/custom.py b/src/sparseml/transformers/finetune/data/custom.py
@@ -20,7 +20,7 @@
 from sparseml.transformers.utils.preprocessing_functions import (
     PreprocessingFunctionRegistry,
 )
-from sparsezoo.utils.helpers import import_from_path
+# from sparsezoo.utils.helpers import import_from_path
 
 
 @TextGenerationDataset.register(name="custom", alias=["json", "csv"])

diff --git a/src/sparseml/transformers/finetune/runner.py b/src/sparseml/transformers/finetune/runner.py
@@ -151,8 +151,11 @@ def one_shot(self, stage: Optional[str] = None):
         """
         _LOGGER.info("*** One Shot ***")
 
+        tokenized_dataset = self.get_dataset_split("calibration")
+        if "labels" in tokenized_dataset.column_names:
+            tokenized_dataset = tokenized_dataset.remove_columns("labels")
         calib_data = format_calibration_data(
-            tokenized_dataset=self.get_dataset_split("calibration"),
+            tokenized_dataset=tokenized_dataset,
             num_calibration_samples=self._data_args.num_calibration_samples,
             accelerator=self.trainer.accelerator,
         )

diff --git a/src/sparseml/transformers/integration_helper_functions.py b/src/sparseml/transformers/integration_helper_functions.py
@@ -144,10 +144,14 @@ def create_data_loader(
     source_path = source_path or model.name_or_path
     if tokenizer is None:
         if sequence_length is None:
-            raise ValueError(
-                "Sequence length for the transformer model export missing. "
-                "Provide it manually using sequence_length argument"
-            )
+            if hasattr(model.config, "max_position_embeddings"):
+                sequence_length = model.config.max_position_embeddings
+            else:
+                raise ValueError(
+                    "Sequence length for the transformer model export missing and "
+                    "could not detect using model.config.max_position_embeddings"
+                    "Provide it manually using sequence_length argument"
+                )
         tokenizer = initialize_tokenizer(config.name_or_path, sequence_length, task)
     data_args = _parse_data_args(data_args or {})