Study Anything 🧐

[Hadoop] ν•˜λ‘‘ μ„€μΉ˜ν•˜κ³  확인해보기 λ³Έλ¬Έ

μŠ€ν„°λ””/Data Analytics

[Hadoop] ν•˜λ‘‘ μ„€μΉ˜ν•˜κ³  확인해보기

솔 2022. 2. 23. 22:52

슀파크λ₯Ό μ‚¬μš©ν•  λ•Œ μ €μž₯μ†Œλ‘œ ν•˜λ‘‘μ„ μ‚¬μš©ν•˜κΈ° μœ„ν•΄ ν•˜λ‘‘μ„ μ„€μΉ˜ν•΄λ³΄κ² λ‹€.

ν•˜λ‘‘ μ„€μΉ˜λŠ” λ‹€μŒ 과정을 λ”°λ₯Έλ‹€.

 

 

 

(1) ν•˜λ‘‘, μžλ°” λ‹€μš΄

https://hadoop.apache.org/releases.html

μœ„ λ§ν¬μ—μ„œ λ°›μœΌλ €λŠ” ν•˜λ‘‘ 버전을 ν™•μΈν•˜κ³  binary λ₯Ό 선택해 μ••μΆ•νŒŒμΌμ„ λ‹€μš΄λ°›λŠ”λ‹€. 

μ••μΆ•νŒŒμΌμ€ ~.tar.gz ν™•μž₯자 이름을 가지고 있고 λ‚˜λŠ” 3.2.2 버전을 λ°›μ•˜λ‹€.

(μŠ€νŒŒν¬μ— ν¬ν•¨λœ ν•˜λ‘‘ 버전이 3.2 버전이닀.)

μžλ°”(jdk)도 λ‹€μš΄λ°›μ•„μ•Ό ν•˜μ§€λ§Œ μžλ°”λŠ” 이미 있기 λ•Œλ¬Έμ— ν•΄λ‹Ή 과정은 μƒλž΅ν•œλ‹€. (λ‚˜μ˜ μžλ°” 버전 13)

 

 

 

(2) ν™˜κ²½λ³€μˆ˜ μ„€μ •

슀파크 μ„€μΉ˜ λ•Œμ™€ λ§ˆμ°¬κ°€μ§€λ‘œ ν™˜κ²½λ³€μˆ˜λ₯Ό μ„€μ •ν•œλ‹€. (이전 κ²Œμ‹œκΈ€μ—μ„œ μžμ„Ένžˆ λ‹€λ€˜μœΌλ―€λ‘œ μ—¬κΈ°μ„œλŠ” νŒ¨μŠ€ν•œλ‹€.)

λ‹€λ§Œ 이전에 μ„€μ •ν–ˆλ˜ HADOOP_HOME 을 νŽΈμ§‘ν•΄μ„œ μ••μΆ•ν•΄μ œν•œ ν΄λ”λ‘œ μ„€μ •ν•œλ‹€.

(λ‚˜μ˜ 경우 : (κΈ°μ‘΄) C:\Hadoop → (λ³€κ²½) C:\Hadoop\hadoop-3.2.2)

슀파크 μ„€μΉ˜ λ•Œ λ‹€μš΄λ°›μ•˜λ˜ C:\Hadoop\bin ν΄λ”μ˜ winutils.exe νŒŒμΌλ„ ν•΄λ‹Ήν•˜λŠ” 같은 κ²½λ‘œμ— μΆ”κ°€ν•œλ‹€.

(λ‚˜μ˜ 경우 : C:\Hadoop\hadoop-3.2.2\bin ν΄λ”λ‘œ 이동)

 

 

 

(3) ν•˜λ‘‘ 버전 확인

ν•˜λ‘‘μ΄ μ œλŒ€λ‘œ μ„€μΉ˜λ˜μ—ˆλŠ”μ§€ ν™•μΈν•˜κΈ° μœ„ν•΄ ν•˜λ‘‘ 버전을 ν™•μΈν•΄λ³΄μ•˜λ‹€.

λ‚΄ ν™˜κ²½μ˜ jdk 버전이 13이기 λ•Œλ¬Έμ— μžλ°” 버전이 13인 것이 ν™•μΈλ˜κ³  μžˆλ‹€.

 

ν˜Ήμ‹œ 이 λ•Œ 'μ§€μ •λœ 경둜λ₯Ό 찾을 수 μ—†μŠ΅λ‹ˆλ‹€. Error: JAVA_HOME is incorrectly set.' 였λ₯˜κ°€ λ°œμƒν•œλ‹€λ©΄

이것은 ν™˜κ²½ λ³€μˆ˜μ˜ JAVA_HOME 에 띄어쓰기가 ν¬ν•¨λ˜μ—ˆκΈ° λ•Œλ¬ΈμœΌλ‘œ

C:\Program Files\ 라면 C:\Progra~1\ 으둜, C:\Program Files(x86)\ 이라면 C:\Progra~2\ 으둜 λ³€κ²½ν•œλ‹€.

 

 

 

(4) 파일 μˆ˜μ •

C:\Hadoop\hadoop-3.2.2\etc\hadoop ν΄λ”λ‘œ 이동해 νŒŒμΌλ“€μ„ μˆ˜μ •ν•œλ‹€.

μˆ˜μ •ν•  νŒŒμΌμ€ λͺ¨λ‘ 5개이며, 쀑간에 C:\Hadoop\hadoop-3.2.2 μ•ˆμ— data\datanode 폴더와 data\namenode 폴더λ₯Ό λ§Œλ“ λ‹€. 이 과정은 μ•„λž˜ 링크λ₯Ό μ°Έκ³ ν–ˆλ‹€.

https://codedragon.tistory.com/9582

 

 

 

(4) μ„€μΉ˜ 확인

μœ„ 과정을 λͺ¨λ‘ 마친 ν›„ cmd μ°½μ—μ„œ λ‹€μŒ λͺ…λ Ήμ–΄λ₯Ό μž…λ ₯ν•΄ ν΄λ”λ‘œ μ΄λ™ν•œλ‹€.

...> cd C:\Hadoop\hadoop-3.2.2\etc\hadoop

μ°¨λ‘€λŒ€λ‘œ λͺ…령어듀을 μž…λ ₯ν•œλ‹€.

...\etc\hadooop> hadoop-env

...\etc\hadooop> hadoop namenode -format

각쒅 INFO κ°€ ν™•μΈλ˜λ©° HDFS λ₯Ό 기반으둜 ν•œ κ²½λ‘œκ°€ 보인닀.

 

 

μ΄μ–΄μ„œ 폴더λ₯Ό μ΄λ™ν•œ ν›„ 계속 μ§„ν–‰ν•œλ‹€.

start-dfs λͺ…λ Ήμ–΄λ₯Ό μž…λ ₯ν•˜λ©΄ namenode 와 datanode 와 κ΄€λ ¨λœ μ°½ 2κ°œκ°€ λ„μ›Œμ§„λ‹€.

λ°©ν™”λ²½ κ΄€λ ¨ 창이 λ„μ›Œμ§„λ‹€λ©΄ μ•‘μ„ΈμŠ€λ₯Ό ν—ˆμš©ν•œλ‹€.

μƒˆλ‘œ λ„μ›Œμ§„ 창에 더 이상 μƒˆλ‘œμš΄ λ‚΄μš©μ΄ μ—…λ°μ΄νŠΈλ˜μ§€ μ•ŠμœΌλ©΄ μ›λž˜μ˜ cmd μ°½μ—μ„œ 계속 μ§„ν–‰ν•œλ‹€.

start-yarn λͺ…λ Ήμ–΄λ₯Ό μž…λ ₯ν•˜λ©΄ yarn 데λͺ¬μ΄ μ‹€ν–‰λœλ‹€. λ§ˆμ°¬κ°€μ§€λ‘œ 2개의 창이 κ΅¬λ™λœλ‹€.

...\etc\hadoop> cd ../../sbin

...\sbin> start-dfs

...\sbin> start-yarn

 

 

λ§ˆμ§€λ§‰μœΌλ‘œ λ‹€μŒ νŽ˜μ΄μ§€λ“€μ΄ 잘 κ΅¬λ™λ˜λŠ”μ§€ ν™•μΈν•œλ‹€.

  • λ„€μž„λ…Έλ“œ 정보 (NameNode Information) : http://localhost:9870/
  • λ°μ΄ν„°λ…Έλ“œ 정보 (DataNode Information) : http://localhost:9864/
  • YARN 정보 (YARN Information) : http://localhost:8088/

 

μ°¨λ‘€λŒ€λ‘œ λ‹€μŒκ³Ό 같은 μ›ΉνŽ˜μ΄μ§€κ°€ λ„μ›Œμ§„λ‹€.

NameNode Information
DataNode Information
YARN Information

 

 

 

ν•˜μ§€λ§Œ λ‚˜μ˜ 경우 YARN 데λͺ¬μ„ μ‹€ν–‰ν–ˆμ„ λ•Œ resourcemanager μ—μ„œ

'ERROR capacity.CapacityScheduler: Attempting to remove non-existent node ~' 의 였λ₯˜κ°€ λ°œμƒν–ˆλ‹€.

 

μœ„μ˜ μΊ‘μ³ν™”λ©΄μ—μ„œ λ³΄λ‹€μ‹œν”Ό YARN 정보창은 잘 λœ¨κΈ°λŠ” ν–ˆμ§€λ§Œ μžμ„Ένžˆ 보면 Cluster Nodes의 Unhealty Nodes 뢀뢄에 1이 μΆ”κ°€λ˜μ–΄ μžˆλŠ” 것을 λ³Ό 수 μžˆλ‹€.

이것은 λ‚΄ PC의 μ €μž₯μš©λŸ‰μ΄ 90% 이상 μ°¨μžˆμ„ λ•Œ λ°œμƒν•˜λŠ” ν˜„μƒμ΄μ—ˆλ‹€..

PC의 μš©λŸ‰μ„ μ •λ¦¬ν•˜κ³  μ–΄λŠ μ •λ„μ˜ μš©λŸ‰μ„ ν™•λ³΄ν•œ 뒀에 μœ„ λͺ…령듀을 μ‹€ν–‰ν–ˆλ”λ‹ˆ 였λ₯˜λ„ 생기지 μ•Šμ•˜κ³  YARN μ •λ³΄μ°½μ˜ ν΄λŸ¬μŠ€ν„° λ…Έλ“œ Active Nodes 뢀뢄에 1이 μΆ”κ°€λœ 것을 확인할 수 μžˆμ—ˆλ‹€.

YARN Information

 

 

이처럼 ν˜Ήμ‹œ λͺ¨λ₯Ό 였λ₯˜λ“€μ— λŒ€λΉ„ν•΄ ν‰μ†Œ PC의 μš©λŸ‰μ„ 잘 μ •λ¦¬ν•˜λ„λ‘ ν•˜μž... (μ‹€μ œλ‘œ 이 였λ₯˜ ν•΄κ²° λ•Œλ¬Έμ— 며칠을 λ‚ λ¦Ό..)

 

 

728x90
Comments