AWS SageMaker의 새로운 기능인 강화된 메트릭 제공
현대의 생산 환경에서 기계 학습 모델의 운영은 인프라의 견고함과 확장성 이상의 것이 필요합니다. 우리는 성능과 자원 사용에 대한 거의 지속적인 가시성이 필요하며, 레이턴시가 증가하거나 호출이 실패하거나 자원이 제한될 때 이를 신속히 진단하고 해결할 필요가 있습니다.
기존에는 Amazon SageMaker AI가 Amazon CloudWatch 메트릭을 제공했으나, 이는 모든 인스턴스와 컨테이너에 대한 총합 메트릭으로 개별적인 문제 해결에는 제한적이었습니다. 그러나 이제 SageMaker AI 엔드포인트는 강화된 메트릭을 지원하여 세밀한 가시성을 제공하며, 이를 통해 운영 환경을 모니터링하고 문제를 해결해 성능을 개선하는 데 더 많은 정보를 제공합니다.
강화된 메트릭으로 가능한 것은 다음과 같습니다:
- 특정 모델 복사본 메트릭 보기: 여러 모델 복사본이 엔드포인트에 배포되는 Inference Components를 통해 동시 요청, GPU 및 CPU 사용량 등의 메트릭을 확인하여 문제를 진단하고 트래픽 패턴을 예측할 수 있습니다.
- 모델별 비용 산정: 동일 인프라를 공유하는 여러 모델의 비용을 추적하여 각 모델의 실제 비용을 산정할 수 있습니다.
강화된 메트릭을 통해 EC2 자원 사용량 메트릭과 Invocation 메트릭을 다양한 세부 단계로 제공받습니다. 인스턴스 레벨 메트릭을 통해 각 인스턴스에서 발생하는 활동을 모니터링하고, 컨테이너 레벨에서는 여러 모델을 호스팅할 경우 자원 사용과 호출 패턴을 세밀하게 추적할 수 있습니다. 이를 위해 엔드포인트 구성 생성 시 하나의 파라미터를 추가하여 간단히 활성화할 수 있습니다.
활용 사례로는 실시간 GPU 사용 추적, 모델별 비용 분류 및 클러스터 전체 자원 모니터링이 있습니다. 이러한 메트릭들은 각 환경에 맞게 대시보드를 설정하여 다양한 통찰력을 제공합니다. SageMaker의 강화된 메트릭을 통해 비용을 절감하고 자원 효율성을 높이며, 보다 안정적이고 성능 우수한 머신 러닝 환경을 조성할 수 있습니다.
자세한 구현 사례나 코드 예시는 AWS의 공식 문서와 관련 노트북에서 확인할 수 있습니다.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기
