Study Anything ๐ง
[Hadoop] ๋งต๋ฆฌ๋์ค - ๋ถ์ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ํ๋ ์์ํฌ ๋ณธ๋ฌธ
[Hadoop] ๋งต๋ฆฌ๋์ค - ๋ถ์ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ํ๋ ์์ํฌ
์ 2022. 2. 26. 23:54์ข์ ๋ถ์ฐ ์์คํ ์ ๊ตฌ์ถํ๊ธฐ ์ํด์๋ ํจ์จ์ ์ธ ์ ์ถ๋ ฅ๋ ์ค์ํ์ง๋ง ์ด๊ฒ๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ง ์๋ค.
YARN์ ํด๋ฌ์คํฐ์ ๊ณ์ฐ์ ๋ถ์ฐํ๊ณ HDFS์ ๋ณด๊ด๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฅ ๊ฐ๋ฅํ๋๋ก ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ์ถ์ํํด์ ์ ๊ณตํ๋ ๊ฒ ๋ฟ์ด๋ค.
๋ฐ๋ผ์ ๊ณ์ฐ์ ํํํ๋ ๋ฐฉ๋ฒ์ด ์ค์ํ๋ฐ, ํ๋ก์ด ๊ฐ์ฅ ์ฒ์ ์ง์ํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ชจ๋ธ์ ๋งต๋ฆฌ๋์ค์ด๋ค.
๋งต๋ฆฌ๋์ค๋ ๊ตฌ๊ธ์ด ๋ฐํํ๊ณ ๋ง์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์ผ๋ฉฐ ๋จ์ํ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ ๋๋ค.
๋๋ถ์ ๋ถ์ฐ ์์คํ ์ ์ ๋ชฐ๋ผ๋ ์ธํ๋ผ ๊ตฌ์ถ์ ๊ณ ๋ฏผํ์ง ์๊ณ ๋งต๋ฆฌ๋์ค๋ฅผ ํตํด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค.
๋งต๋ฆฌ๋์ค๋ ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋ชจ๋ธ์ด๊ณ ๋ฌธ์ ๋ฅผ ๋งต ๋จ๊ณ, ์ ํ ๋จ๊ณ, ๋ฆฌ๋์ค ๋จ๊ณ๋ก ๋๋ ์ ์ํํ๋ค.
HDFS์ ๋ฐ์ดํฐ ์ง์ญ์ฑ๊ณผ YARN์ ์์ ๋ฐ ๋ฆฌ์์ค ๊ด๋ฆฌ ๊ธฐ๋ฅ์ด ์ด ์ธ ๋จ๊ณ ๊ณ์ฐ์ด ํจ์จ์ ์ด๋๋ก ๋๋๋ค.
๋งต ๋จ๊ณ์์๋ ์ ๋ ฅํ ๋ฐ์ดํฐ๊ฐ ํด๋ฌ์คํฐ์์ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌ๋๋ฉฐ ๋งคํผ ํจ์๋ ๋ฐ์ดํฐ๋ฅผ <ํค, ๊ฐ>์ ์์ผ๋ก ๋ณํํ๋ค.
๋ณํ๋ ๋ฐ์ดํฐ๋ ํค๋ฅผ ๊ธฐ์ค์ผ๋ก ์ ๋ ฌ๋๊ณ ๋ฒํท์ผ๋ก ์ ํ๋ง๋๋ค. ์ฆ, ํค๊ฐ ๊ฐ์ ๊ฐ๋ค์ ๋์ผํ ๋ฆฌ๋์๋ก ์ ๋ฌ๋๋ค.
๋ง์ง๋ง์ผ๋ก ๋ฆฌ๋์๋ ๋ชจ๋ ํค์ ๊ฐ์ ์ฒ๋ฆฌํ๊ณ ๊ฒฐ๊ณผ๋ฅผ HDFS๋ ๋ค๋ฅธ ์๊ตฌ ์ ์ฅ์์ ์ ์ฅํ๋ค.
๋งต๋ฆฌ๋์ค์ ๋งต, ์ ํ, ๋ฆฌ๋์ค ์ธ ๋จ๊ณ๋ ๊ฐ๊ฐ ๋ฌด์ํ์ด๊ฑฐ๋(stateless) ๊ทนํ ์ ํ์ ์ธ ์ํ๋ง ์ ์งํ๋ค.
๋งคํผ๋ ๋ฆฌ๋์๋ ํ์ฌ ์ ๋ ฅ๋ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ด์ ์ ๋ฐ์ดํฐ์ ๋ฌด๊ดํ๊ฒ ์ฒ๋ฆฌํ๋๋ฐ ์ด๊ฒ์ ๊ฐ ๋จ๊ณ์ ๋งคํผ๋ ๋ฆฌ๋์๊ฐ ์ด๋ ๋ ธ๋์์ ์คํ๋ ์ง ์ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋จ์ํ์ง๋ง ์ด ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ๋ง์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค.
์ด๋ฌํ ๋งต๋ฆฌ๋์ค์ ๊ธฐ๋ณธ์ ์ธ ๊ฐ๋ ์ ๋ง์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋๋ฐ, ๊ทธ ์ค์์๋ ๋์์ ํด๋ฒ(๋ฌธ์ ๋ฅผ ๋ถ๋ถ ๊ฒฐ๊ณผ๋ก ๋๋๊ณ ํฉ๊ณ, ํ๊ท , ๊ณ์ ๋ฑ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํด ์ต์ข ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ ๋ฐฉ์)์ ์ํ๋ ๋ฌธ์ ๋ค์ ์ฝ๊ฒ ๋งต๊ณผ ๋ฆฌ๋์ค ์์ ์ผ๋ก ๊ตฌ์ฑํด ํด๊ฒฐํ ์ ์๋ค.
๋ค๋ง ๋ชจ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ ๊ฒ์ ์๋๊ณ ํด๊ฒฐํ ์ ์๋๋ผ๋ ๋ณต์กํ๊ฑฐ๋ ํจ์จ์ด ๋จ์ด์ง ์ ์๋ค.
ํนํ ๋งต๋ฆฌ๋์ค๋ ๋ฐ๋ณต์ด ๋ง์ ์์ ์ ์ ํฉํ์ง ์์์ ๋ฐ๋ณต์ ์ธ ์๋ ด(converge) ๊ณผ์ ์ด ํ์ํ ๊ณผํ ์คํ์ด๋ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํํ๊ธฐ์ ์ด๋ ค์์ด ์๋ค.
YARN์ด ์ปดํจํ ๋ชจ๋ธ์ ๋ฆฌ์์ค ํ ๋น ์์ ์ ์ผ๋ฐํํ๊ฒ ๋๋ฉด์ ํ๋ก์ ๋จ์ํ ๋งต๋ฆฌ๋์ค๋ฅผ ๋์ด ๋ค์ํ ๊ณ์ฐ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์์ง๋ค์ ๊ฐ๋ฅ์ฑ์ ์ด์๋ค. ๋ํ YARN์ ๊ธฐ๋ฐํ ์ํ์น ํ ์ฆ, ์ํ์น ์คํํฌ, ์ํ์น ํ๋งํฌ ๋ฑ ์๋กญ๊ฒ ๋ฑ์ฅํ ์ฒ๋ฆฌ ์์ง๋ค์ด ํ๋ก์ ๊ธฐ๋ฅ์ ํ์ฅํ๋ ๋ฐ์ ๊ธฐ์ฌํ๋ค.
์ฐธ๊ณ : ใํ๋ก๊ณผ ์คํํฌ๋ฅผ ํ์ฉํ ์ค์ฉ ๋ฐ์ดํฐ ๊ณผํใ, ์คํผ ๋ฉ๋ธ๋ฆฌ๋น์น ์ธ 2๋ช
'์คํฐ๋ > Data Analytics' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋ฐ์ดํฐ ๋ถ์ ํ๋ ์์ํฌ - AARRR (ํด์ ์งํ) (0) | 2022.03.16 |
---|---|
[PySpark] ์ฅฌํผํฐ ๋ ธํธ๋ถ์ผ๋ก PySpark ์ฌ์ฉํ๊ธฐ (0) | 2022.02.25 |
[Hadoop] YARN - ๋ฆฌ์์ค ๊ด๋ฆฌ์์ ์ค์ผ์ค๋ฌ (0) | 2022.02.24 |
[Hadoop] ํ๋ก ์ค์นํ๊ณ ํ์ธํด๋ณด๊ธฐ (0) | 2022.02.23 |
[Spark] ์คํํฌ ์ค์นํ๊ณ csv ํ์ผ ๋ถ๋ฌ์ค๊ธฐ (0) | 2022.02.15 |