-
Notifications
You must be signed in to change notification settings - Fork 0
[Archive] Carbon‐Aware and Fault‐Tolerant Migration of Deep Learning Workloads in the Geo‐Distributed Cloud
jhParkland edited this page Sep 9, 2024
·
2 revisions
author: Jeonghyeon Park
- conference: IEEE CLOUD 2024
- paper title: Carbon-Aware and Fault-Tolerant Migration of Deep Learning Workloads in the Geo-Distributed Cloud
- authors: Jeonghyeon Park; Daero Kim; Jiseon Kim; Jungkyu Han; Sejin Chun
- 딥러닝 워크로드를 시공간적으로 마이그레이션(이동) 하는 방법을 제시하며, 탄소 강도를 기반으로 워크로드를 이동시킴.
- GPU 주파수 최적화를 적용해 딥러닝 워크로드로의 전력 소비량을 최적화를 달성하고 궁극적으로 탄소 배출량을 감소시킴.
- 워크로드의 탄소 배출량 최적화를 위해 Scaling, Tolerance, Suspend, Migration 4가지 상태로 구분함.
- 기존의 마이그레이션 방법을 딥러닝에 적용할 수 없던 한계를 딥러닝 모델의 체크포인트를 마이그레이션하는 방법을 사용해서 해결함.
- GPU 주파수 최적화를 통해서 시공간 이동이 일어나지 않았을 때도 지속적으로 탄소 배출량을 감소시키며, 실험 결과 유의미 했음.
- 주파수 최적화로 지속적인 탄소 배출량 관리는 탄소 강도의 일시적인 변화에 대응할 수 있으며 잦은 마이그레이션을 방지했음.
- GPU 주파수 최적화로 학습의 실생시간이 다소 증가함을 보였음.
- 체크포인트 마이그레이션 과정에서 발생하는 데이터 전송 등의 시간으로 전체 실행시간이 증가했음.
@INPROCEEDINGS{10643899,
author={Park, Jeonghyeon and Kim, Daero and Kim, Jiseon and Han, Jungkyu and Chun, Sejin},
booktitle={2024 IEEE 17th International Conference on Cloud Computing (CLOUD)},
title={Carbon-Aware and Fault-Tolerant Migration of Deep Learning Workloads in the Geo-Distributed Cloud},
year={2024},
}
This Wiki is maintained by the Data Science Lab at Dong-A University. Our mission is to provide comprehensive resources and research archives on Sustainable Cloud Computing.
If you have any questions or need further information, please feel free to contact us
© 2024 Data Science Lab, Dong-A University. All rights reserved.