메뉴 닫기

AWS Glue에서 R 타입과 G.12X G.16X 워커를 활용한 수직 확장 전략

AWS Glue에서 Apache Spark 작업을 위한 R 타입, G.12X, G.16X 워커로 수직 확장하는 방법과 활용 전략

대규모 데이터 처리 환경에서 AWS Glue는 분석, 머신러닝, AI, 애플리케이션 개발을 위한 데이터 통합 작업을 자동화하는 데 있어 핵심 역할을 합니다. 그러나 데이터 볼륨과 복잡도가 증가함에 따라 단순히 워커 수를 늘리는 수평 확장 방식만으로는 한계에 부딪힐 수 있습니다. 이번 글에서는 수직 확장의 개념과 함께, 새로운 R 타입과 G.12X, G.16X 워커를 활용해 AWS Glue의 데이터 통합 작업을 어떻게 최적화할 수 있는지 소개합니다.

수직 확장을 위한 새로운 워커 타입 소개

복잡한 쿼리, 메모리 집약적인 작업, 스케일링이 어려운 데이터 스큐(Data Skew) 시나리오 등에서는 개별 워커의 성능을 높이는 수직 확장이 효과적입니다. AWS는 이러한 요구에 대응하여 R 타입과 G.12X, G.16X 워커를 출시했습니다.

R 타입 워커는 특히 메모리 집약형 작업에 최적화된 구성으로, 기존 G 타입보다 두 배 이상 높은 vCPU대비 메모리 비율을 제공합니다.

AWS Glue Studio에서 R 타입 워커 선택 예시

R.2X 워커를 예로 들면, vCPU 8개, 메모리 64GB, 디스크 공간 128GB를 제공합니다. 이는 메모리 사용량이 높은 조인, 고유값이 많은 그룹바이, 윈도우 함수 및 중간 결과가 많은 쿼리 처리에 효율적입니다. 설정은 AWS Glue Studio, CLI, SDK, API 등 어디서든 단일 파라미터 조정으로 가능합니다.

노트북 환경에서 R 타입 워커 설정 예시

한편, G.12X와 G.16X 워커는 G.8X보다 두 배 가까운 리소스를 제공하며, 대용량의 모델 학습, 다단계 쿼리 플랜, 상태 기반 스트림 처리 등 컴퓨팅, 메모리, 디스크가 모두 필요한 복합 워크로드에 적합합니다.

AWS Glue Studio에서 G.12X, G.16X 워커 설정 예시

G.12X, G.16X 워커의 노트북에서 설정하는 방법

활용 시나리오별 워커 타입 비교 및 가이드

어떤 워커 타입을 선택해야 할지는 실제 사용하는 워크로드의 특성에 따라 달라집니다. 예를 들어, 아래는 데이터 처리 중 흔히 발생할 수 있는 과부하/오류와 이에 대한 워커 교체로 해결하는 과정입니다.

  1. 데이터 스큐가 심한 조인 작업

G.2X 워커 10개로 작업을 수행했을 때는 일부 익스큐터에서 64GB 이상의 셔플 데이터를 읽어 오류가 발생했습니다.

G.2X 워커에서 조인 작업 실패 - 작업 상태 탭

G.2X 워커에서 데이터 스큐로 인한 셔플 데이터 과부하

R.2X 워커로 동일 워크로드를 실행했을 때는 아무런 에러 없이 정상적으로 완료됐으며, 셔플 데이터가 분산되어도 각 익스큐터가 충분한 메모리를 보유해 실패가 발생하지 않았습니다.

R.2X 워커에서 동일한 작업 성공 - 작업 상태 탭

R.2X 워커로 인해 셔플 데이터 처리 성공

이러한 사례는 수직 확장을 통해 데이터 스큐, 셔플 과부하, 메모리 오류를 효과적으로 해소할 수 있음을 보여줍니다.

워커 타입 선택 가이드

  • 일반적인 변환 및 분산이 잘된 워크로드: G.1X, G.2X
  • 대형 조인, 고유값 많은 집계, 메모리 기반 작업: R.4X 이상 또는 G.12X, G.16X
  • 머신러닝/데이터 모델링/고집약 분석: G.16X, R.8X
  • 셔플/스테이트 기반 스트림 처리: R 타입 계열

AWS Glue 콘솔, API, CLI, 노트북 환경 어디서나 손쉽게 워커 타입을 전환할 수 있으며, 자동확장 기능, 주피터 노트북 기반 작업 작성 기능 등 기존 기능 모두 동일하게 지원합니다. 작업 실행 비용은 사용한 DPU 기준으로 초당 과금되며, 1분 최소 과금 기준이 적용됩니다.

결론

복잡하고 메모리/컴퓨팅 집약적인 Spark 작업에서는 단순 워커 수 증가보다 개별 워커 리소스를 확장하는 것이 성능 최적화에 효과적입니다. AWS Glue의 R 타입, G.12X, G.16X 워커는 수직 확장을 위한 선택지로 이용 가능하며, 자동화된 워크로드 처리와 데이터 스케일링의 새로운 기준을 제공합니다. 실제 워크로드 맞춤 워커 선택을 통해 리소스 사용 효율성을 극대화해 보세요.

https://aws.amazon.com/blogs/big-data/scale-your-aws-glue-for-apache-spark-jobs-with-r-type-g-12x-and-g-16x-workers/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너