AWS

AWS 데이터 분석 서비스: Redshift, EMR, Athena

heesoohi 2025. 3. 12. 19:39

 

# Redshift

 

  • PostgreSQL 기반의 데이터베이스 (하지만 OLTP에 사용되지는 않음 - RDS와의 차이점)
  • OLAP(Online Analytical Processing)에 특화됨
  • 데이터 웨어하우스와 분석 역할
    - 데이터 분석/계산 성능이 매우 좋음.
    - 타 데이터 웨어하우스들의 10배 성능
    - PB 단위까지 용량 확장 가능
  • 1시간 이상 간격으로 데이터 로드 (지속적 로드 아님)
  • Column based 스토리지 - '열 저장 방식'으로 데이터 저장
  • SQL 인터페이스를 통해 쿼리 수행
  • QuickSight 같은 BI 도구와 통합되어 있어, 데이터 웨어하우스에 대시보드 생성 가능

 

Redshift의 간단한 사용 방법

 

 

-> 보고서 작성, 대시보드 애플리케이션, 실시간 분석 등에 Redshift 가 적합하다. 

 

-> 서버리스 옵션을 선택하면, 사용자는 분석 작업만 실행하고, 데이터 웨어하우스 기반은 관리하지 않아도 됨. 매우 편리!

 

-> Redshift Query Editor 같은 도구를 사용하여 쿼리를 작성하면, Redshift Serverless가 자동으로 조회 시작 및 쿼리와 작업량에 따라 자동으로 저장 공간 제공 및 스케일링함. 

 

 

 

 

# EMR = Elastic MapReduce

 

 

EMR은 실제 데이터베이스가 아닌, AWS에서 빅데이터를 작업하려고 할 때 사용하는 Hadoop 클러스터를 생성해주는 서비스이다. 

 

 

🧐 Hadoop 클러스터란?

: 방대한 양의 데이터를 분석하고 처리하는데 이용되는 수백 개의 EC2 인스턴스로 구성된 클러스터

 

Hadoop 은 오픈소스 기술로, 클러스터에서 작동하는 여러 서버를 통해 데이터를 함께 분석할 수 있다. 

 

Hadoop 생태계 = 빅데이터 생태계에는 Apache Spark, HBase Presto, Flink 등 다양한 프로젝트가 있는데, 모두 Hadoop 클러스터를 이용해 작업할 수 있다. 

 

 

 

이렇게 빅데이터 관점에서 데이터를 분석할 필요가 있을 때, EMR이 대규모 EC2 인스턴스의 프로비저닝과 구성을 담당하며, 원활하게 작동하도록 지원하는 역할을 한다. 

 

 

 

 

# Athena

 

S3에 저장된 객체에 대한 분석을 수행하는, 서버리스 쿼리 서비스. 

사용자가 S3에 데이터를 로드하면, Athena가 해당 데이터에 대해 SQL 쿼리 언어를 통해 쿼리 작업을 수행하고 데이터를 분석한다.

 

-> 비즈닌스 인텔리전스(BI), 분석, 보고, VPC Flows Log, ELB 로그, CloudTrail 로그, 플랫폼 로그 등 모든 AWS 로그를 분석하는 작업이 필요할 때 Athena가 적합하다.  

 

S3내 데이터를 서버리스 SQL을 이용해 분석하는 Athena