[Spark] AWS Elastic MapReduce(EMR)
[Spark] AWS Elastic MapReduce(EMR)
📌 Elastic MapReduce란?
AWS Elastic MapReduce(EMR) 는 빅데이터 클러스터 관리 서비스이다. AWS가 알아서 스파크나 하둡 클러스터를 생성한다. 네트워크 설정이나 버전 호환 문제를 알아서 해결하며, 노드에 장애가 발생하면 자동으로 감지하여 대체 노드를 띄운다.
📌 특징
클러스터의 부하를 지속적으로 모니터링하여 부하가 증가하면 자동으로 노드를 추가한다. 항상 최대 부하에 맞춰 거대한 클러스터를 항상 유지하는 것이 아니라 필요한 만큼 리소스를 사용할 수 있다.
EMR은 Spot Instances 기능을 제공한다. AWS의 사용 가능한 자원을 온디맨드 인스턴스 대비 최대 90%까지 저렴하게 사용할 수 있는 기능인데, 이를 통해 빅데이터 처리 비용을 줄일 수 있다. 또한 데이터를 비교적 저렴한 S3에 영구적으로 저장하고 데이터 처리가 필요할 때 EMR 클러스터를 시작한다. 이는 항상 클러스터를 유지함으로써 발생하는 비용을 절감시킬 수 있다.
또한 S3, CloudWatch와 같은 다른 AWS 생태계와 완벽하게 통합되어 시너지를 낸다.
다양한 스토리지 옵션을 제공한다. HDFS는 빠르게 데이터를 저장하고 셔플링할 때 사용되나 클러스터가 종료되는 데이터가 사라지는 비영구적 저장소이다. EMRFS는 EMR이 S3를 기본 스토리지처럼 사용하게 해주는 커넥터이다. 데이터의 영속성을 보장한다. EBS는 EC2 인스턴스에 연결하는 블록 스토리지이다. 보다 유연하게 용량을 조절할 수 있으나 EMR에서는 클러스터와 생명주기를 공유하므로 보통 S3를 권장한다.
This post is licensed under CC BY 4.0 by the author.