# Redshift
- PostgreSQL 기반의 데이터베이스 (하지만 OLTP에 사용되지는 않음 - RDS와의 차이점)
- OLAP(Online Analytical Processing)에 특화됨
- 데이터 웨어하우스와 분석 역할
- 데이터 분석/계산 성능이 매우 좋음.
- 타 데이터 웨어하우스들의 10배 성능
- PB 단위까지 용량 확장 가능 - 1시간 이상 간격으로 데이터 로드 (지속적 로드 아님)
- Column based 스토리지 - '열 저장 방식'으로 데이터 저장
- SQL 인터페이스를 통해 쿼리 수행
- QuickSight 같은 BI 도구와 통합되어 있어, 데이터 웨어하우스에 대시보드 생성 가능
-> 보고서 작성, 대시보드 애플리케이션, 실시간 분석 등에 Redshift 가 적합하다.
-> 서버리스 옵션을 선택하면, 사용자는 분석 작업만 실행하고, 데이터 웨어하우스 기반은 관리하지 않아도 됨. 매우 편리!
-> Redshift Query Editor 같은 도구를 사용하여 쿼리를 작성하면, Redshift Serverless가 자동으로 조회 시작 및 쿼리와 작업량에 따라 자동으로 저장 공간 제공 및 스케일링함.
# EMR = Elastic MapReduce
EMR은 실제 데이터베이스가 아닌, AWS에서 빅데이터를 작업하려고 할 때 사용하는 Hadoop 클러스터를 생성해주는 서비스이다.
🧐 Hadoop 클러스터란?
: 방대한 양의 데이터를 분석하고 처리하는데 이용되는 수백 개의 EC2 인스턴스로 구성된 클러스터
Hadoop 은 오픈소스 기술로, 클러스터에서 작동하는 여러 서버를 통해 데이터를 함께 분석할 수 있다.
Hadoop 생태계 = 빅데이터 생태계에는 Apache Spark, HBase Presto, Flink 등 다양한 프로젝트가 있는데, 모두 Hadoop 클러스터를 이용해 작업할 수 있다.
이렇게 빅데이터 관점에서 데이터를 분석할 필요가 있을 때, EMR이 대규모 EC2 인스턴스의 프로비저닝과 구성을 담당하며, 원활하게 작동하도록 지원하는 역할을 한다.
# Athena
S3에 저장된 객체에 대한 분석을 수행하는, 서버리스 쿼리 서비스.
사용자가 S3에 데이터를 로드하면, Athena가 해당 데이터에 대해 SQL 쿼리 언어를 통해 쿼리 작업을 수행하고 데이터를 분석한다.
-> 비즈닌스 인텔리전스(BI), 분석, 보고, VPC Flows Log, ELB 로그, CloudTrail 로그, 플랫폼 로그 등 모든 AWS 로그를 분석하는 작업이 필요할 때 Athena가 적합하다.
'AWS' 카테고리의 다른 글
데이터 추출, 변환, 로드(ETL)을 위한 서비스 - AWS Glue (0) | 2025.03.14 |
---|---|
변경 불가능한 원장 데이터베이스 Amazon QLDB (0) | 2025.03.13 |
DynamoDB - 키-값 저장, DAX, Global Tables의 이해 (0) | 2025.03.11 |
AWS에서 빠른 데이터 처리를 위한 캐싱 전략 - ElastiCache (0) | 2025.03.10 |
AWS RDS 데이터베이스 배포 전략 (0) | 2025.03.09 |