AWS

AWS Lake Formation 개념 정리

heesoohi 2025. 6. 7. 01:35

AWS에서는 데이터를 Amazon S3에 저장한 뒤, Athena, Redshift Spectrum, EMR 등을 통해 분석하는 구조가 흔히 사용된다. 그러나 이 구조에서 데이터 접근 제어를 구현하려면 IAM, S3 버킷 정책, Glue 카탈로그 등을 복잡하게 설정해야 하는 등 여러 AWS 계정 간 데이터 공유를 안전하게 구현하는 데에는 많은 수고가 필요하다. 이러한 복잡성을 줄이기 위해 AWS는 Lake Formation이라는 서비스를 제공한다.

 

Lake Formation이란?

Lake Formation은 Amazon S3를 기반으로 하는 데이터 레이크를 쉽고 안전하게 구축할 수 있도록 지원하는 서비스이다. 기존에 AWS Glue, IAM, S3 정책 등을 조합해서 처리해야 했던 작업들을 하나의 중앙 제어 서비스로 통합해준다. Lake Formation의 핵심 특징을 정리해보면,

  • 데이터는 S3에 그대로 저장하면서
  • Glue Data Catalog를 기반으로 메타데이터를 구성하고
  • Lake Formation에서 역할 기반 권한을 제어하며
  • Athena, Redshift Spectrum, EMR 등과 바로 연동하여 쿼리할 수 있다

 

역할 기반 접근 제어

Lake Formation의 가장 강력한 기능 중 하나는 역할(Role) 기반 접근 제어이다.

 

예를 들어, 조직 내에 여러 AWS 계정이 있고, 각 계정에 S3 데이터가 분산되어 있는 상황을 가정해보자. 이때 하나의 중앙 계정을 데이터 레이크로 지정하고, 다른 계정의 사용자들이 역할(Role)에 따라 해당 데이터에 접근해야 할 경우, Lake Formation을 사용하면 다음과 같은 정책을 손쉽게 설정할 수 있다

 

ex)

  • 계정 B의 특정 역할은, 계정 A의 데이터셋에 SELECT 권한만 부여
  • 특정 테이블의 특정 컬럼에만 접근 허용 (예: 이름, 이메일은 허용하되, 주민등록번호는 차단)

이러한 방식으로 열(Column) 수준의 보안 정책도 설정 가능하며, S3나 IAM만으로는 구현하기 어려웠던 세밀한 접근 제어가 가능하다.