아마존 S3에서 Apache Iceberg 성능 최적화를 위한 Sort 및 Z-Order Compaction 지원 개시
최근 AWS는 Amazon S3에서 Apache Iceberg 테이블에 대해 Sort 및 Z-order Compaction을 지원한다고 발표하였습니다. 이는 S3 Tables와 일반 S3 버킷 모두에서 사용할 수 있으며, AWS Glue Data Catalog의 최적화 기능을 통해 적용할 수 있습니다.
정렬 압축(Sort Compaction)은 쿼리 엔진이 스캔하는 데이터 파일 수를 최소화하여 쿼리 속도를 크게 향상시키고 비용을 절감하는 데 매우 효율적입니다. 특히 컬럼 기반의 대용량 분석 환경에서는 압축된 결과 덕분에 스캔 대상 범위가 좁아져 리소스 낭비를 줄일 수 있습니다.
Z-order Compaction은 여러 컬럼에 걸쳐 동시에 필터링할 경우 성능을 더 개선할 수 있는 정렬 방식입니다. 파일 단위로 데이터를 공간적으로 정렬함으로써, 쿼리 시 불필요한 파일 접근을 최소화할 수 있습니다. 이 기능은 특히 다중 조건이 조합된 쿼리 처리에 효과적입니다.
S3 Tables 사용자는 테이블 메타데이터에 정렬 순서를 설정하면 계층적(hierarchical) 정렬이 자동으로 수행되어 관리 측면에서 매우 간편합니다. 만약 여러 조건 간 우선순위가 동일하다면, S3 Tables 유지관리 API를 통해 Z-order 압축도 간단히 활성화할 수 있습니다.
일반 목적의 S3 버킷을 사용할 경우에도, AWS Glue Data Catalog 콘솔을 통해 테이블 최적화 설정에서 원하는 압축 방식(Sort 또는 Z-order)을 선택하여 활용할 수 있습니다. 이 설정을 통해 기존 Data Lake 환경에서도 Iceberg 기반의 쿼리 성능을 대폭 개선할 수 있습니다.
이번 지원은 S3 Tables 또는 AWS Glue Data Catalog 최적화가 가능한 모든 AWS 리전에서 제공되므로, 전 세계 대부분의 AWS 환경에서 바로 적용할 수 있는 범용적인 성능 개선 방식입니다. 특히 자동화된 테이블 관리가 중심이 되는 빅데이터 애널리틱스 환경에서, 활용 가치가 매우 큽니다.
결론적으로, Sort 및 Z-Order Compaction은 Apache Iceberg를 사용하는 기업 및 개발자에게 쿼리 성능 향상, 비용 절감, 관리 자동화 등 다양한 효과를 제공할 수 있습니다. AWS Glue 또는 S3 Tables를 기반으로 하는 데이터 아키텍처 개선 시 이 기능을 꼭 고려해 보시기 바랍니다.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기