Study Anything ๐ง
[Hadoop] ํ๋ก๊ณผ ๋ถ์ฐ ํ์ผ ์์คํ ๋ณธ๋ฌธ
๋ฐ์ดํฐ ๊ณผํ, ๋ฐ์ดํฐ ๋ถ์์ ๊ด์ฌ์ด ์๋ค๋ฉด ํ ๋ฒ์ฏค ์ ํ๊ฒ ๋๋ ์ด๋ฆ์ด ๋ฐ๋ก 'ํ๋ก(Hadoop)'์ด๋ค.
ํ๋ก์ ์๋ฐ ๊ธฐ๋ฐ์ ๋ถ์ฐ ์ปดํจํ ํ๋ซํผ์ผ๋ก, ํต์ฌ ํ์ผ ์์คํ ์ธ HDFS(Hadoop Distributed File System) ๋๋ถ์ ๋์ฉ๋์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ ๋ค๋ฃฐ ์ ์๋ค.
์ด๋ป๊ฒ ์ด๋ฐ ๊ด๋ฆฌ๊ฐ ๊ฐ๋ฅํ ๊น?
ํ๋ก์ ๊ตฌ๊ธ์ GFS(Google File System)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋์๋๋ฐ, ์ผ๋ฐ์ ์ธ ํ์ผ ์์คํ ์ ๊ฐ์ง ์ฌ๋ฌ ๋ฐ์ดํฐ๋ ธ๋๋ฅผ ๋ฌถ์ด์ ํ๋์ ๋ถ์ฐ ํ์ผ ์์คํ ์ ๊ตฌ์ถํ๋๋ก ํ์๋ค.
๋ฐ๋ผ์ ํ์ผ ์์คํ ์ ์ฝ๊ฒ ํ์ฅํ ์ ์๊ฒ ๋์๊ณ ๋์ฉ๋์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ ๊ด๋ฆฌํ ์ ์๊ฒ ๋์๋ค.
์ด๋ฐ HDFS์ ์ค๊ณ์๋ ์ธ ๊ฐ์ง์ ๊ฐ์ ์ด ๋ฐ์๋์๋๋ฐ
์ฒซ ๋ฒ์งธ, ๋ฐ์ดํฐ์ ํ ์ค์บ๋์ ์ง์ํ๊ธฐ ์ํด์ ํ์ผ ์์ฐจ ์ฝ๊ธฐ(sequential read)์ ์๋๊ฐ ๋นจ๋ผ์ผ ํ๋ค.
๋ ๋ฒ์งธ, ๋ฐ์ดํฐ๋ฅผ ์ฎ๊ฒจ์ ๊ณ์ฐ์ ์ํํ๋ ๊ฒ์ด ์๋๋ผ ์ ์ฅ๋ ๊ณณ์์ ๊ณ์ฐ์ ์ํํ ์ ์๋๋ก ๊ฐ ๋ ธ๋๊ฐ ์์ ์ด ์ ์ฅํ ๋ฐ์ดํฐ์ ์์น ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ๊ตํํด์ผ ํ๋ค.
์ธ ๋ฒ์งธ, ๋ ธ๋์ ๊ฒฐํจ(fault)์ ์ํํธ์จ์ด ๋ ์ด์ด์์ ๊ทน๋ณตํด์ผ ํ๋ค.
๋ํ ๋ฐ์ดํฐ๋ HDFS ๋ด๋ถ์ ๋ธ๋ก ํํ๋ก ์ ์ฅ๋๊ณ , ๋ธ๋ก์ HDFS์ ์ํด ๋ณต์ ๋์ด ์ฌ๋ฌ ๋ ธ๋์ ๋ถ์ฐ๋๋ค.
HDFS์ ๋ฆฌํ๋ฆฌ์ผ์ด์ ๋ฉ์ปค๋์ฆ(์ฌ๋ฌ DB๋ฅผ ์์ง์ ์ธ ๊ตฌ์กฐ๋ก ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ)์ ๋จ์ํ ์ฌ๋ฌ ๋ ธ๋์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅ์ํค๋ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฌ ๋(rack)์ ๋ถ์ฐ ์ ์ฅ๋๋๋ก ํ์ฌ ๋จ์ผ ๋ ธ๋๋ ๋จ์ผ ๋์ ๋ฌธ์ ๋ก ๋ฐ์ดํฐ๊ฐ ์ ์ค๋๋ ๊ฒ์ ๋ฐฉ์งํ๋ค.
๋ฐ์ดํฐ๊ฐ ์ ์ฅ๋ ์์น๋ฅผ ํ์ ํ๊ณ ๊ณ์ฐ์ด ์งํ๋ ์ฅ์๋ฅผ ์์คํ ์ด ๊ฒฐ์ ํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ์ ๊ฐ๊น์ด ๊ณณ์์ ์์ ์ด ์คํ๋๊ณ , ์ด๋ฐ ์ ๋๋ถ์ ๋ฐ์ดํฐ๋ฅผ ์ ์กํ๋ ๋ฐ์ ๊ฑธ๋ฆฌ๋ ์๊ฐ์ ๋จ์ถํ ์ ์๋ค.
๋ฐ์ดํฐ๋ฅผ ์ฃผ๊ณ ๋ฐ์ผ๋ ค๋ฉด ํด๋ผ์ด์ธํธ๋ ๋จผ์ ๋ค์๋ ธ๋์ ์ ์ํด ๋ฐ์ดํฐ๋ฅผ ์์ฒญํ๋ค.
์ด ๋ ํ์ผ์ ์ฝ๊ฑฐ๋ ์ ์ฅํ๋ ค๋ ๊ฒฝ์ฐ์ ํ์ํ ๋ธ๋ก์ ์์น๋ฅผ ์์ฒญํ๊ณ ํด๋น ๋ธ๋ก์ ์ ์ฅํ๋ ์๋ฒ์ ์ง์ ํต์ ํ๋ค.
์ด๋ฐ ๊ตฌ์กฐ ๋๋ถ์ ๋ชจ๋ ๋ฐ์ดํฐ๊ฐ ๋ค์๋ ธ๋๋ฅผ ๊ฑฐ์ณ๊ฐ์ง ์์๋ ๋๊ณ , ์์คํ ์ ์ผ๋ถ๋ฅผ ํ์ํ ๋งํผ๋ง ์ฌ์ฉํ ์ ์๋ค.
์ฐธ๊ณ : ใํ๋ก๊ณผ ์คํํฌ๋ฅผ ํ์ฉํ ์ค์ฉ ๋ฐ์ดํฐ ๊ณผํใ, ์คํผ ๋ฉ๋ธ๋ฆฌ๋น์น ์ธ 2๋ช
'์คํฐ๋ > Data Analytics' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[PySpark] ์ฅฌํผํฐ ๋ ธํธ๋ถ์ผ๋ก PySpark ์ฌ์ฉํ๊ธฐ (0) | 2022.02.25 |
---|---|
[Hadoop] YARN - ๋ฆฌ์์ค ๊ด๋ฆฌ์์ ์ค์ผ์ค๋ฌ (0) | 2022.02.24 |
[Hadoop] ํ๋ก ์ค์นํ๊ณ ํ์ธํด๋ณด๊ธฐ (0) | 2022.02.23 |
[Spark] ์คํํฌ ์ค์นํ๊ณ csv ํ์ผ ๋ถ๋ฌ์ค๊ธฐ (0) | 2022.02.15 |
[Pandas] ํ๋ค์ค์ ์๋ฆฌ์ฆ ๊ธฐ๋ณธ (0) | 2022.02.06 |