Skip to content

[Archive] Carbon‐Aware and Fault‐Tolerant Migration of Deep Learning Workloads in the Geo‐Distributed Cloud

jhParkland edited this page Sep 9, 2024 · 2 revisions

Paper Review

author: Jeonghyeon Park

paper information

Main idea

  1. 딥러닝 워크로드를 시공간적으로 마이그레이션(이동) 하는 방법을 제시하며, 탄소 강도를 기반으로 워크로드를 이동시킴.
  2. GPU 주파수 최적화를 적용해 딥러닝 워크로드로의 전력 소비량을 최적화를 달성하고 궁극적으로 탄소 배출량을 감소시킴.
  3. 워크로드의 탄소 배출량 최적화를 위해 Scaling, Tolerance, Suspend, Migration 4가지 상태로 구분함.

Pros

  1. 기존의 마이그레이션 방법을 딥러닝에 적용할 수 없던 한계를 딥러닝 모델의 체크포인트를 마이그레이션하는 방법을 사용해서 해결함.
  2. GPU 주파수 최적화를 통해서 시공간 이동이 일어나지 않았을 때도 지속적으로 탄소 배출량을 감소시키며, 실험 결과 유의미 했음.
  3. 주파수 최적화로 지속적인 탄소 배출량 관리는 탄소 강도의 일시적인 변화에 대응할 수 있으며 잦은 마이그레이션을 방지했음.

Cons

  1. GPU 주파수 최적화로 학습의 실생시간이 다소 증가함을 보였음.
  2. 체크포인트 마이그레이션 과정에서 발생하는 데이터 전송 등의 시간으로 전체 실행시간이 증가했음.

Cite

@INPROCEEDINGS{10643899,
  author={Park, Jeonghyeon and Kim, Daero and Kim, Jiseon and Han, Jungkyu and Chun, Sejin},
  booktitle={2024 IEEE 17th International Conference on Cloud Computing (CLOUD)}, 
  title={Carbon-Aware and Fault-Tolerant Migration of Deep Learning Workloads in the Geo-Distributed Cloud}, 
  year={2024},
}