메뉴 닫기

AWS SageMaker HyperPod를 활용한 지진 모델 확장 및 분산 훈련

AWS SageMaker HyperPod와 함께하는 지진 기초 모델의 확장 및 분산 훈련

최근 AWS와 협력하여 TGS는 지진 기초 모델(SFM)의 훈련 인프라를 최적화하기 위해 SageMaker HyperPod를 활용하여 최신화에 성공했습니다. 이러한 혁신은 배경과 문제, 그리고 상세한 솔루션을 통해 현실화되었습니다.

주요 내용 및 성공 사례

확장 가능한 분산 훈련의 필요성

TGS의 SFM은 3D 지진 데이터를 분석하기 위해 Vision Transformer 기반의 모델을 사용하며, 이러한 모델의 확장은 훈련 시 여러 문제를 야기합니다. 이를 해결하기 위해서는 대규모 데이터를 효율적으로 처리하고, 훈련 효율성을 높이는 전략이 필요했습니다. AWS와의 협력을 통해 이러한 과제를 해결하는 포괄적인 솔루션을 개발하였습니다.

솔루션의 개요

이번 협력은 데이터 파이프라인의 효율적 구축, 다수 노드에 걸친 분산 훈련 최적화, 그리고 더 넓은 지질학적 맥락을 분석할 수 있는 모델의 창 확대에 중점을 두었습니다. 아래 이미지는 솔루션 아키텍처를 설명합니다.

AWS SageMaker HyperPod 서비스 통합 구조 다이어그램

이 솔루션은 SageMaker HyperPod를 활용하여 자동으로 상태를 모니터링하고 체크포인트 관리 기능이 강화된 확장 가능한 훈련 인프라를 제공합니다. AWS IAM 역할을 통해 최소 권한으로 훈련을 실행하며, Amazon S3에서 데이터가 직접 스트리밍되어 높은 처리량을 유지합니다.

결과와 영향

솔루션을 통해 TGS는 훈련 기간을 6개월에서 5일로 단축하고, 모델 개선 주기를 크게 가속화했습니다. 또한, 더 큰 3D 볼륨 제목을 학습하여 보다 폭넓은 지질학적 패턴까지 포착하는 것이 가능해졌습니다. 이는 고객에게 더욱 깊이 있는 분석 결과를 제공할 수 있게 합니다.

결론 및 활용 방안

이번 협력은 AWS GenAIIC와 함께하여 AWS 상에서 SFM을 최적화하고 확장 가능한 인프라를 구축하는 것입니다. 이러한 기술 혁신은 전문적인 과학 분야에 AI 기술을 적용하며 새로운 가능성을 보여줍니다. 추가적인 자세한 정보는 SageMaker HyperPod 리소스 가이드에서 확인할 수 있습니다.

[1] https://aws.amazon.com/blogs/machine-learning/scaling-seismic-foundation-models-on-aws-distributed-training-with-amazon-sagemaker-hyperpod-and-expanding-context-windows/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너