Skip to content

Latest commit

 

History

History
61 lines (54 loc) · 1.9 KB

README.md

File metadata and controls

61 lines (54 loc) · 1.9 KB

Augmentation 사용법

🤗 EDA

🤗 AEDA

EDA

Random swap, Random Delete

from eda import *
  • train.py 에 eda 함수를 추가합니다.
   def eda(dataset):
       dataset = calculate_idx(dataset)
       dataset = random_delete(dataset,0.3)
       return dataset
  • p는 augmentation이 일어날 확률입니다.
  • swap이나 delete하기전에 calculate_idx함수를 실행해야 합니다.
  • train_dataset 선언 이후에 augmented_train_dataset 을 선언해서 train_dataset 대신에 사용하시면 됩니다.
augmented_train_dataset = easy_data_augmentation(train_dataset)

AEDA

from aeda import *
  • train.py 의 argparse에 위 코드를 추가하면 aeda로 문장을 몇배로 늘릴 것인지 설정 가능합니다.
parser.add_argument("--aeda", type=int, default=2, help="aeda num (default: 2")
  • train_label 선언 이후에 aeda 코드를 추가해 주면 사용 가능합니다.
# data augmentation (AEDA)
if args.aeda > 1:
   train_dataset, train_label = start_aeda(train_dataset, train_label, args.aeda)

Random masking

  • 2가지 방법으로 random masking 사용 가능
random_maksing/train.py

tokenized_train, token_size= preprocess.tokenized_dataset(train_dataset, tokenizer, mask_flag=True)
tokenized_val, _= preprocess.tokenized_dataset(val_dataset, tokenizer, mask_flag=False)
random_maksing/train.py

masked_train = random_masking(tokenized_train, p = 0.15)