# AWS Glue
Glue는 관리형 추출, 변환, 로드 서비스로, ETL 서비스라고도 부른다. (extract, transform, load)
🧐 ETL이란?
데이터셋에 대한 분석을 수행할 때, 형식이 올바르지 않거나 원하는 형식이 아닐때 유용하게 쓰이는 서비스이다. ETL 서비스를 통해 데이터를 원하는 형식으로 변환하여 준비할 수 있다.
보통 데이터를 원하는대로 준비하는 작업은 서버를 사용하여 수행되곤 하는데, Glue는 서버리스 서비스이기도 해서, 데이터 변환하는 작업 자체에만 신경을 쓰면 된다는 점도 서버와 비교했을 때 장점이다.
위 그림과 같은 상황을 예로 들어 Glue가 어떤 서비스인지 더 자세하게 살펴보자.
S3 버킷과 Amazon RDS 데이터베이스 모두에서 데이터를 추출하려고 하는 경우를 가정해보자.
두 소스로부터 데이터를 추출하기 위해 Glue 를 사용할 수 있는데,
데이터가 추출되고 나면 Glue에서 스크립트를 작성하고, 변환단계로 넘어간다.
Glue에 의해 변환된 데이터는 Redshift 데이터베이스에 로드되는 등 분석하기 위한 준비를 마치게 된다!
Glue는 위의 예시 외에도 데이터를 어디에든 로드할 수 있으며, 어떤 형태로든 변환할 수 있는 강력한 도구이다.
- Glue Data Catalog
Glue 제품군 중 하나인 Glue Data Catalog는 AWS 인프라 내 데이터셋의 카탈로그를 제공한다. 여기에는 '열 이름, 필드 이름, 필드 유형 등..' 모든 항목에 대한 참조가 들어있다. (그것이 바로 카탈로그니까..!)
이 서비스를 사용하면 Athena Redshift, EMR 등의 서버에서 데이터셋을 검색하고, 적합한 스키마를 구축할 수 있다.
'AWS' 카테고리의 다른 글
도커(Docker)란? 컨테이너로 앱 배포하기 (0) | 2025.03.16 |
---|---|
AWS DMS로 쉽게 하는 데이터베이스 마이그레이션 (0) | 2025.03.15 |
변경 불가능한 원장 데이터베이스 Amazon QLDB (0) | 2025.03.13 |
AWS 데이터 분석 서비스: Redshift, EMR, Athena (0) | 2025.03.12 |
DynamoDB - 키-값 저장, DAX, Global Tables의 이해 (0) | 2025.03.11 |