[Spark] AWS Elastic MapReduce(EMR)
๐ Elastic MapReduce๋?
AWS Elastic MapReduce(EMR)
๋ ๋น
๋ฐ์ดํฐ ํด๋ฌ์คํฐ ๊ด๋ฆฌ ์๋น์ค์ด๋ค. AWS๊ฐ ์์์ ์คํํฌ๋ ํ๋ก ํด๋ฌ์คํฐ๋ฅผ ์์ฑํ๋ค. ๋คํธ์ํฌ ์ค์ ์ด๋ ๋ฒ์ ํธํ ๋ฌธ์ ๋ฅผ ์์์ ํด๊ฒฐํ๋ฉฐ, ๋
ธ๋์ ์ฅ์ ๊ฐ ๋ฐ์ํ๋ฉด ์๋์ผ๋ก ๊ฐ์งํ์ฌ ๋์ฒด ๋
ธ๋๋ฅผ ๋์ด๋ค.
๐ ํน์ง
ํด๋ฌ์คํฐ์ ๋ถํ๋ฅผ ์ง์์ ์ผ๋ก ๋ชจ๋ํฐ๋งํ์ฌ ๋ถํ๊ฐ ์ฆ๊ฐํ๋ฉด ์๋์ผ๋ก ๋ ธ๋๋ฅผ ์ถ๊ฐํ๋ค. ํญ์ ์ต๋ ๋ถํ์ ๋ง์ถฐ ๊ฑฐ๋ํ ํด๋ฌ์คํฐ๋ฅผ ํญ์ ์ ์งํ๋ ๊ฒ์ด ์๋๋ผ ํ์ํ ๋งํผ ๋ฆฌ์์ค๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
EMR์ Spot Instances
๊ธฐ๋ฅ์ ์ ๊ณตํ๋ค. AWS์ ์ฌ์ฉ ๊ฐ๋ฅํ ์์์ ์จ๋๋งจ๋ ์ธ์คํด์ค ๋๋น ์ต๋ 90%๊น์ง ์ ๋ ดํ๊ฒ ์ฌ์ฉํ ์ ์๋ ๊ธฐ๋ฅ์ธ๋ฐ, ์ด๋ฅผ ํตํด ๋น
๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋น์ฉ์ ์ค์ผ ์ ์๋ค. ๋ํ ๋ฐ์ดํฐ๋ฅผ ๋น๊ต์ ์ ๋ ดํ S3์ ์๊ตฌ์ ์ผ๋ก ์ ์ฅํ๊ณ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๊ฐ ํ์ํ ๋ EMR ํด๋ฌ์คํฐ๋ฅผ ์์ํ๋ค. ์ด๋ ํญ์ ํด๋ฌ์คํฐ๋ฅผ ์ ์งํจ์ผ๋ก์จ ๋ฐ์ํ๋ ๋น์ฉ์ ์ ๊ฐ์ํฌ ์ ์๋ค.
๋ํ S3, CloudWatch์ ๊ฐ์ ๋ค๋ฅธ AWS ์ํ๊ณ์ ์๋ฒฝํ๊ฒ ํตํฉ๋์ด ์๋์ง๋ฅผ ๋ธ๋ค.
๋ค์ํ ์คํ ๋ฆฌ์ง ์ต์ ์ ์ ๊ณตํ๋ค. HDFS๋ ๋น ๋ฅด๊ฒ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ ์ ํ๋งํ ๋ ์ฌ์ฉ๋๋ ํด๋ฌ์คํฐ๊ฐ ์ข ๋ฃ๋๋ ๋ฐ์ดํฐ๊ฐ ์ฌ๋ผ์ง๋ ๋น์๊ตฌ์ ์ ์ฅ์์ด๋ค. EMRFS๋ EMR์ด S3๋ฅผ ๊ธฐ๋ณธ ์คํ ๋ฆฌ์ง์ฒ๋ผ ์ฌ์ฉํ๊ฒ ํด์ฃผ๋ ์ปค๋ฅํฐ์ด๋ค. ๋ฐ์ดํฐ์ ์์์ฑ์ ๋ณด์ฅํ๋ค. EBS๋ EC2 ์ธ์คํด์ค์ ์ฐ๊ฒฐํ๋ ๋ธ๋ก ์คํ ๋ฆฌ์ง์ด๋ค. ๋ณด๋ค ์ ์ฐํ๊ฒ ์ฉ๋์ ์กฐ์ ํ ์ ์์ผ๋ EMR์์๋ ํด๋ฌ์คํฐ์ ์๋ช ์ฃผ๊ธฐ๋ฅผ ๊ณต์ ํ๋ฏ๋ก ๋ณดํต S3๋ฅผ ๊ถ์ฅํ๋ค.