add self tuning options to docker startup and run_workloads.py

mlcommons · priyakasimbeg · Mar 5, 2024 · Feb 20, 2024 · Feb 24, 2024 · Feb 24, 2024
commit d425994e5a21cca20c30c7345bb7c78fa29a5a6b
@@ -50,6 +50,7 @@ HOME_DIR=""
 RSYNC_DATA="true"
 OVERWRITE="false"
 SAVE_CHECKPOINTS="true"
+TUNING_RULESET="external"
 
 # Pass flag
 while [ "$1" != "" ]; do
@@ -107,6 +108,10 @@ while [ "$1" != "" ]; do
             shift
             HOME_DIR=$1
             ;;
+        --tuning_ruleset)
+            shift
+            TUNING_RULESET=$1
+            ;;
         --num_tuning_trials)
             shift
             NUM_TUNING_TRIALS=$1
@@ -157,6 +162,7 @@ VALID_WORKLOADS=("criteo1tb" "imagenet_resnet" "imagenet_resnet_silu" "imagenet_
                  "librispeech_deepspeech_tanh" \
                  "librispeech_deepspeech_no_resnet" "librispeech_deepspeech_norm_and_spec_aug"
                  "fastmri_layernorm" "ogbg_gelu" "ogbg_silu" "ogbg_model_size")
+VALID_RULESETS=("self" "external")
 
 # Set data and experiment paths
 ROOT_DATA_BUCKET="gs://mlcommons-data"
@@ -167,14 +173,21 @@ EXPERIMENT_DIR="${HOME_DIR}/experiment_runs"
 
 if [[ -n ${DATASET+x} ]]; then 
     if [[ ! " ${VALID_DATASETS[@]} " =~ " $DATASET " ]]; then
-        echo "Error: invalid argument for dataset (d)."
+        echo "Error: invalid argument $DATASET for dataset (d)."
         exit 1
     fi
 fi
 
 if [[ -n ${WORKLOAD+x} ]]; then 
     if [[ ! " ${VALID_WORKLOADS[@]} " =~ " $WORKLOAD " ]]; then
-        echo "Error: invalid argument for workload (w)."
+        echo "Error: invalid argument $WORKLOAD for workload (w)."
+        exit 1
+    fi
+fi
+
+if [[ -n ${TUNING_RULESET+x} ]]; then 
+    if [[ ! " ${VALID_RULESETS[@]} " =~ " $TUNING_RULESET " ]]; then
+        echo "Error: invalid argument $TUNING_RULESET gtfor tuning ruleset (tuning_ruleset)."
         exit 1
     fi
 fi
@@ -243,6 +256,10 @@ if [[ ! -z ${SUBMISSION_PATH+x} ]]; then
     if [[ ${FRAMEWORK} == "pytorch" ]]; then
         TORCH_COMPILE_FLAG="--torch_compile=true"
     fi
+
+    # Flags for rulesets
+    if [[ ${TUNING_RULESET} == "external "]]; then
+        TUNING_SEARCH_SPACE_FLAG = "--submission_path=${SUBMISSION_PATH}"
 
     # The TORCH_RUN_COMMAND_PREFIX is only set if FRAMEWORK is "pytorch"
     COMMAND="${COMMAND_PREFIX} submission_runner.py \
@@ -256,13 +273,26 @@ if [[ ! -z ${SUBMISSION_PATH+x} ]]; then
         --experiment_name=${EXPERIMENT_NAME} \
         --overwrite=${OVERWRITE} \
         --save_checkpoints=${SAVE_CHECKPOINTS} \
-        ${NUM_TUNING_TRIALS_FLAG} \
-        ${HPARAM_START_INDEX_FLAG} \
-        ${HPARAM_END_INDEX_FLAG} \
         ${RNG_SEED_FLAG} \
         ${MAX_STEPS_FLAG}  \
         ${SPECIAL_FLAGS} \
-        ${TORCH_COMPILE_FLAG} 2>&1 | tee -a ${LOG_FILE}"
+        ${TORCH_COMPILE_FLAG}"
+
+    if [[ ${TUNING_RULESET} == "external" ]]; then
+        COMMAND = "${COMMAND} \
+                   ${TUNING_RULESET_FLAG} \
+                   ${TUNING_SEARCH_SPACE_FLAG} \
+                   ${NUM_TUNING_TRIALS_FLAG} \
+                   ${HPARAM_START_INDEX_FLAG} \
+                   ${HPARAM_END_INDEX_FLAG}"
+
+    else 
+        COMMAND = "${COMMAND} \
+                   ${TUNING_RULESET_FLAG}"
+    fi
+
+    COMMAND = "$COMMAND 2>&1 | tee -a ${LOG_FILE}"
+
     echo $COMMAND > ${LOG_FILE}
     echo $COMMAND
     eval $COMMAND

@@ -50,6 +50,10 @@
     False,
     'Whether or not to actually run the docker containers. '
     'If False, simply print the docker run commands. ')
+flags.DEFINE_enum('tuning_ruleset', 
+                    'external', 
+                    enum_values=['external', 'self'],
+                    help='Can be either external of self.')
 flags.DEFINE_integer('num_studies', 5, 'Number of studies to run')
 flags.DEFINE_integer('study_start_index', None, 'Start index for studies.')
 flags.DEFINE_integer('study_end_index', None, 'End index for studies.')