λͺ©λ‘μ€ν°λ/Data Analytics (8)
Study Anything π§
AARRR κΈ°λ²μ κ·Έλ‘μ€ ν΄νΉ(Growth Hacking) μ λΆμ κΈ°λ²μ΄λ€. κ·Έλ‘μ€ ν΄νΉμ κΈ°μ μ μ±μ₯μ μ΅μ°μ μΌλ‘ νλ©°, μ¬μ©μμ λ°μ΄ν°λ₯Ό λΆμν΄ μλΉμ€λ₯Ό κ°μ νλ λ°μ νμ©νκΈ° λλ¬Έμ μ΄λ° μ΄λ¦μ΄ λΆκ² λμλ€. λ€μ― λ¨μ΄μ μ κΈμλ₯Ό λμΌλ©° κ°κ° Acquisition(νλ), Activation(νλ), Retention(μ¬λ°©λ¬Έ), Referral(곡μ ), Revenue(μμ΅) μ΄λ€. μ¬μ©μκ° μλΉμ€λ₯Ό νμ©νλ©΄μ μμ§λλ μ¬λ¬ λ°μ΄ν° μ€ μ λ€μ―κ°μ§μ μ§νλ₯Ό ν΅μ¬μΌλ‘ μλΉμ€μ μ±μ₯μ νμ©νλ€. λ€μ― κ°μ μ§νλ₯Ό μμ°¨μ μΌλ‘ λΆμνλ κ²μ΄ μλλΌ ν¨κ» λΆμν΄μΌ νλ€. (1) Acquisition νλ λ¨κ³μμλ μλΉμκ° μλΉμ€λ₯Ό μ΄λ»κ² μκ² λμλμ§, μ΄λ€ κ²½λ‘λ‘ μ μ λμλμ§ λ±μ λΆμνλ€. DAU, ..
μ’μ λΆμ° μμ€ν μ ꡬμΆνκΈ° μν΄μλ ν¨μ¨μ μΈ μ μΆλ ₯λ μ€μνμ§λ§ μ΄κ²λ§μΌλ‘λ μΆ©λΆνμ§ μλ€. YARNμ ν΄λ¬μ€ν°μ κ³μ°μ λΆμ°νκ³ HDFSμ 보κ΄λ λ°μ΄ν°λ₯Ό νμ₯ κ°λ₯νλλ‘ μ²λ¦¬νλ λ°©λ²μ μΆμνν΄μ μ 곡νλ κ² λΏμ΄λ€. λ°λΌμ κ³μ°μ νννλ λ°©λ²μ΄ μ€μνλ°, νλ‘μ΄ κ°μ₯ μ²μ μ§μν λ°μ΄ν° μ²λ¦¬ λͺ¨λΈμ 맡리λμ€μ΄λ€. 맡리λμ€λ ꡬκΈμ΄ λ°ννκ³ λ§μ λ¬Έμ λ₯Ό ν΄κ²°ν μ μμΌλ©° λ¨μν λͺ¨λΈμ κΈ°λ°μ λλ€. λλΆμ λΆμ° μμ€ν μ μ λͺ°λΌλ μΈνλΌ κ΅¬μΆμ κ³ λ―Όνμ§ μκ³ λ§΅λ¦¬λμ€λ₯Ό ν΅ν΄ λ¬Έμ λ₯Ό ν΄κ²°ν μ μλ€. 맡리λμ€λ λ³λ ¬ μ²λ¦¬ λͺ¨λΈμ΄κ³ λ¬Έμ λ₯Ό 맡 λ¨κ³, μ ν λ¨κ³, 리λμ€ λ¨κ³λ‘ λλ μ μννλ€. HDFSμ λ°μ΄ν° μ§μμ±κ³Ό YARNμ μμ λ° λ¦¬μμ€ κ΄λ¦¬ κΈ°λ₯μ΄ μ΄ μΈ λ¨κ³ κ³μ°μ΄ ν¨μ¨μ μ΄λλ‘ λλλ€. ..
μ λ² ν¬μ€νΈμμλ windows10 μ μ€νν¬λ₯Ό μ€μΉν΄λ³΄μλ€. λ€λ§ cmd μ°½μμ λͺ¨λ μμ μ μ§ννκΈ°μλ λΆνΈν¨μ΄ μμ΄μ (μμ λͺ λ Ήμ΄ λ± λ΄μ© μ μ₯μ λΆνΈ) μμΌλ‘λ μ₯¬νΌν° λ ΈνΈλΆμΌλ‘ μμ νκΈ° μν΄ μμ νκ²½μ μΈν νκ³ ν μ€νΈλ‘ λ°μ΄ν°λ₯Ό λΆλ¬μ보μλ€. μ₯¬νΌν° λ ΈνΈλΆκ³Ό μλμ½λ€λ μ΄λ―Έ μ€μΉλμ΄ μλ€κ³ κ°μ νλ€. λ°μ΄ν°λ₯Ό μ μ₯νκ³ κ΄λ¦¬νκΈ° μν΄ νλ‘μ ν¨κ» μ¬μ©νλ€. (νλ‘ μ€μΉ λ°©λ²μ μ΄μ ν¬μ€νΈ μ°Έκ³ ) μ¦, μ΄λ² ν¬μ€νΈμμ λ€λ£¨λ λ΄μ©μ μ€νν¬μ νλ‘μ μ°κ²°νλ λ΄μ©μ΄λΌκ³ λ³Ό μ μκ² λ€. (1) νλ‘ μ€ν cmd μ°½μ μ΄μ΄ νλ‘ μ€μΉνμΌμ΄ μλ λλ ν λ¦¬λ‘ μ΄λνκ³ λ€μ λͺ λ Ήμ΄λ€μ μ°¨λ‘λ‘ μ€ννλ€. μ΄ λ 'hdfs namenode -format' λͺ λ Ήμ ν λλ§λ€ μ€ννμ§ μκ³ λ§¨ μ²μμλ§ μ€νν΄λ λ..
μ λ²μλ νλ‘μ΄ λ¬΄μμΈμ§, κ·Έλ¦¬κ³ νλ‘μ κΈ°λ³Έ νμΌ μμ€ν μΈ λΆμ° νμΌ μμ€ν μ λν΄ κ³΅λΆνλ€. μ΄λ²μλ μ΄μ΄μ νλ‘μ 리μμ€ κ΄λ¦¬μμ μ€μΌμ€λ¬μ λν΄ κ³΅λΆν΄λ³΄λ €κ³ νλ€. λΆμ° μμ€ν μμλ μ€μΌμ€λ§κ³Ό 리μμ€ κ΄λ¦¬ κΈ°λ₯μ ν΅μ¬ μμλ‘ κ°μ§κ³ μλλ°, νλ‘μμλ κ³μ° 리μμ€λ₯Ό ν λΉνκ³ μ¬μ©μ μ ν리μΌμ΄μ μ μ€μΌμ€λ§νλ μμ€ν μΌλ‘ YARN μ μ¬μ©νλ€. YARN (Yet Another Resource Negotiator) μ μ€μΌμ€λ§κ³Ό 리μμ€ κ΄λ¦¬λ₯Ό λ΄λΉνμ¬ λ°μ΄ν°μ μ§μμ±μ κ·Ήλννκ³ κ³μ°λμ΄ λ§μ μ ν리μΌμ΄μ μ΄ μμμ λ μ νμ§ μλλ‘ μ μ΄νλ€. λν κ΅μ²΄κ° κ°λ₯ν μ€μΌμ€λ§ μμ€ν μ μ§μνκ³ μ¬μ©μλΉ λ¦¬μμ€ μ ν, μμ λκΈ°μ΄λΉ 리μμ€ ν λΉλ λ±μ κ³΅μ© λ¦¬μμ€ μμ€ν μ€μΌμ€λ§μ νμν νκ²½ μ€μ μ μ€μΌμ€λ¬μ..
μ€νν¬λ₯Ό μ¬μ©ν λ μ μ₯μλ‘ νλ‘μ μ¬μ©νκΈ° μν΄ νλ‘μ μ€μΉν΄λ³΄κ² λ€. νλ‘ μ€μΉλ λ€μ κ³Όμ μ λ°λ₯Έλ€. (1) νλ‘, μλ° λ€μ΄ https://hadoop.apache.org/releases.html μ λ§ν¬μμ λ°μΌλ €λ νλ‘ λ²μ μ νμΈνκ³ binary λ₯Ό μ νν΄ μμΆνμΌμ λ€μ΄λ°λλ€. μμΆνμΌμ ~.tar.gz νμ₯μ μ΄λ¦μ κ°μ§κ³ μκ³ λλ 3.2.2 λ²μ μ λ°μλ€. (μ€νν¬μ ν¬ν¨λ νλ‘ λ²μ μ΄ 3.2 λ²μ μ΄λ€.) μλ°(jdk)λ λ€μ΄λ°μμΌ νμ§λ§ μλ°λ μ΄λ―Έ μκΈ° λλ¬Έμ ν΄λΉ κ³Όμ μ μλ΅νλ€. (λμ μλ° λ²μ 13) (2) νκ²½λ³μ μ€μ μ€νν¬ μ€μΉ λμ λ§μ°¬κ°μ§λ‘ νκ²½λ³μλ₯Ό μ€μ νλ€. (μ΄μ κ²μκΈμμ μμΈν λ€λ€μΌλ―λ‘ μ¬κΈ°μλ ν¨μ€νλ€.) λ€λ§ μ΄μ μ μ€μ νλ HADOOP_HOME μ νΈ..
μ€νν¬λ λ°μ΄ν° κ³Όνμμ μμ£Ό λ³Ό μ μλ λ°λ³΅ μ°μ°μ μ ν©ν κ°λ κ³Ό κΈ°λ₯μ μ 곡νλ μΈ-λ©λͺ¨λ¦¬ λ°μ΄ν° μ²λ¦¬ μμ§μΌλ‘ λΉ λ₯Έ μλκ° νΉμ§μ΄λ€. λ€μν μΈμ΄μ λ°μ΄ν° ν¬λ§·μ μ§μνκ³ λ°μ΄ν° μ μ²λ¦¬λ₯Ό ν¨κ³Όμ μΌλ‘ μνν μ μμ΄μ λΉ λ°μ΄ν° νμΌ μμ€ν μΌλ‘ λ§μ΄ μ°μ΄λ νλ‘κ³Ό κ°μ΄ μ°μ΄κΈ°λ νλ€. κΈ°λ³Έμ μΈ λΆμ° μ²λ¦¬ κΈ°λ₯ λΏ μλλΌ μ€νν¬ SQL, MLlib, μ€νΈλ¦¬λ° λ± μ¬λ¬ κ΅¬μ± μμκ° μλ€. κΈ°λ³Έ λ°μ΄ν° ꡬ쑰λ‘λ κ°μ²΄μ λΆμ° μνμ€μΈ RDD(Resilient Distributed Dataset)λ₯Ό μ¬μ©νλ©° RDDλ λ€μν κ΄κ³ λμ μ°μ°μ(SELECT, JOIN λ±)μ μ€μΉΌλΌ, νμ΄μ¬ λ³ν λ‘μ§μ νΌμ°μ°μλ‘ μ μ©λ μ μλ€. RDDλ λν RAMμ μ μ₯λλ©° μλμΌλ‘ κ²°ν¨μ 극볡νλ λ©μ»€λμ¦μ μ§μνλ€. λ§μ½..
λ°μ΄ν° κ³Όν, λ°μ΄ν° λΆμμ κ΄μ¬μ΄ μλ€λ©΄ ν λ²μ―€ μ νκ² λλ μ΄λ¦μ΄ λ°λ‘ 'νλ‘(Hadoop)'μ΄λ€. νλ‘μ μλ° κΈ°λ°μ λΆμ° μ»΄ν¨ν νλ«νΌμΌλ‘, ν΅μ¬ νμΌ μμ€ν μΈ HDFS(Hadoop Distributed File System) λλΆμ λμ©λμ λ°μ΄ν°λ₯Ό μ μ₯νκ³ λ€λ£° μ μλ€. μ΄λ»κ² μ΄λ° κ΄λ¦¬κ° κ°λ₯ν κΉ? νλ‘μ ꡬκΈμ GFS(Google File System)λ₯Ό κΈ°λ°μΌλ‘ μ€κ³λμλλ°, μΌλ°μ μΈ νμΌ μμ€ν μ κ°μ§ μ¬λ¬ λ°μ΄ν°λ Έλλ₯Ό λ¬Άμ΄μ νλμ λΆμ° νμΌ μμ€ν μ ꡬμΆνλλ‘ νμλ€. λ°λΌμ νμΌ μμ€ν μ μ½κ² νμ₯ν μ μκ² λμκ³ λμ©λμ λ°μ΄ν°λ₯Ό μ μ₯νκ³ κ΄λ¦¬ν μ μκ² λμλ€. μ΄λ° HDFSμ μ€κ³μλ μΈ κ°μ§μ κ°μ μ΄ λ°μλμλλ° μ²« λ²μ§Έ, λ°μ΄ν°μ ν μ€μΊλμ μ§μνκΈ° μν΄μ νμΌ μ..
μ°Έκ³ : https://wikidocs.net/75004 Pandas(μ΄ν νλ€μ€)λ νμ΄μ¬ λΌμ΄λΈλ¬λ¦¬λ‘, λ°μ΄ν° μ‘°μ λ° λΆμμ μ©μ΄νλ©° μ¬μ©νκΈ° μ¬μ΄ λ°μ΄ν° ꡬ쑰λ₯Ό μ 곡νλ€. λ°μ΄ν°νλ μ, μ리μ¦, μΈλ±μ€ λ±μ μλ£κ΅¬μ‘°λ₯Ό μ 곡νλ©° κ΄κ³ν λ°μ΄ν°λ² μ΄μ€μ ν μ΄λΈκ³Ό κ°μ ꡬ쑰λ‘, SQLκ³Ό κ°μ ννλ‘ λ°μ΄ν°λ₯Ό μ²λ¦¬ν μ μκΈ° λλ¬Έμ μ½κ² μ κ·Όν μ μλ€. λ¨λ μ¬μ©λ³΄λ€λ NumPy, scikit-leran, matplotlib κ³Ό ν¨κ» μ¬μ©νλ κ²½μ°κ° λ§λ€. (1) νλ€μ€μ μλ£κ΅¬μ‘° νλ€μ€κ° μ 곡νλ μλ£κ΅¬μ‘°μ΄λ€. μ리μ¦λ λ°°μ΄ νμ, λ°μ΄ν°νλ μμ ν νμμ ꡬ쑰μ΄λ©° μ리μ¦κ° λͺ¨μ¬ λ°μ΄ν°νλ μμ ꡬμ±νλ€. μλ¦¬μ¦ : κ°(values) + μΈλ±μ€(index) λ°μ΄ν°νλ μ : μΉΌλΌ(columns) + μΈλ±μ€..