Amazon S3에서 Apache Iceberg 성능 향상을 위한 Sort 및 Z-Order 압축 지원 시작

아마존 S3에서 Apache Iceberg 성능 최적화를 위한 Sort 및 Z-Order Compaction 지원 개시

최근 AWS는 Amazon S3에서 Apache Iceberg 테이블에 대해 Sort 및 Z-order Compaction을 지원한다고 발표하였습니다. 이는 S3 Tables와 일반 S3 버킷 모두에서 사용할 수 있으며, AWS Glue Data Catalog의 최적화 기능을 통해 적용할 수 있습니다.

정렬 압축(Sort Compaction)은 쿼리 엔진이 스캔하는 데이터 파일 수를 최소화하여 쿼리 속도를 크게 향상시키고 비용을 절감하는 데 매우 효율적입니다. 특히 컬럼 기반의 대용량 분석 환경에서는 압축된 결과 덕분에 스캔 대상 범위가 좁아져 리소스 낭비를 줄일 수 있습니다.

Z-order Compaction은 여러 컬럼에 걸쳐 동시에 필터링할 경우 성능을 더 개선할 수 있는 정렬 방식입니다. 파일 단위로 데이터를 공간적으로 정렬함으로써, 쿼리 시 불필요한 파일 접근을 최소화할 수 있습니다. 이 기능은 특히 다중 조건이 조합된 쿼리 처리에 효과적입니다.

S3 Tables에서 Compaction이 작동하는 아키텍처 예시

S3 Tables 사용자는 테이블 메타데이터에 정렬 순서를 설정하면 계층적(hierarchical) 정렬이 자동으로 수행되어 관리 측면에서 매우 간편합니다. 만약 여러 조건 간 우선순위가 동일하다면, S3 Tables 유지관리 API를 통해 Z-order 압축도 간단히 활성화할 수 있습니다.

일반 목적의 S3 버킷을 사용할 경우에도, AWS Glue Data Catalog 콘솔을 통해 테이블 최적화 설정에서 원하는 압축 방식(Sort 또는 Z-order)을 선택하여 활용할 수 있습니다. 이 설정을 통해 기존 Data Lake 환경에서도 Iceberg 기반의 쿼리 성능을 대폭 개선할 수 있습니다.

이번 지원은 S3 Tables 또는 AWS Glue Data Catalog 최적화가 가능한 모든 AWS 리전에서 제공되므로, 전 세계 대부분의 AWS 환경에서 바로 적용할 수 있는 범용적인 성능 개선 방식입니다. 특히 자동화된 테이블 관리가 중심이 되는 빅데이터 애널리틱스 환경에서, 활용 가치가 매우 큽니다.

결론적으로, Sort 및 Z-Order Compaction은 Apache Iceberg를 사용하는 기업 및 개발자에게 쿼리 성능 향상, 비용 절감, 관리 자동화 등 다양한 효과를 제공할 수 있습니다. AWS Glue 또는 S3 Tables를 기반으로 하는 데이터 아키텍처 개선 시 이 기능을 꼭 고려해 보시기 바랍니다.

https://aws.amazon.com/blogs/aws/new-improve-apache-iceberg-query-performance-in-amazon-s3-with-sort-and-z-order-compaction

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

Amazon S3에서 Apache Iceberg 성능 향상을 위한 Sort 및 Z-Order 압축 지원 시작

카테고리