Random swap, Random Delete
def eda (dataset ):
dataset = calculate_idx (dataset )
dataset = random_delete (dataset ,0.3 )
return dataset
p는 augmentation이 일어날 확률입니다.
swap이나 delete하기전에 calculate_idx함수를 실행해야 합니다.
train_dataset
선언 이후에 augmented_train_dataset
을 선언해서 train_dataset 대신에 사용하시면 됩니다.
augmented_train_dataset = easy_data_augmentation (train_dataset )
train.py 의 argparse에 위 코드를 추가하면 aeda로 문장을 몇배로 늘릴 것인지 설정 가능합니다.
parser .add_argument ("--aeda" , type = int , default = 2 , help = "aeda num (default: 2" )
train_label
선언 이후에 aeda 코드를 추가해 주면 사용 가능합니다.
# data augmentation (AEDA)
if args .aeda > 1 :
train_dataset , train_label = start_aeda (train_dataset , train_label , args .aeda )
2가지 방법으로 random masking 사용 가능
random_maksing / train .py
tokenized_train , token_size = preprocess .tokenized_dataset (train_dataset , tokenizer , mask_flag = True )
tokenized_val , _ = preprocess .tokenized_dataset (val_dataset , tokenizer , mask_flag = False )
random_maksing / train .py
masked_train = random_masking (tokenized_train , p = 0.15 )