Study Anything ๐ง
[Pandas] ํ๋ค์ค์ ์๋ฆฌ์ฆ ๊ธฐ๋ณธ ๋ณธ๋ฌธ
์ฐธ๊ณ : https://wikidocs.net/75004
Pandas(์ดํ ํ๋ค์ค)๋ ํ์ด์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก, ๋ฐ์ดํฐ ์กฐ์ ๋ฐ ๋ถ์์ ์ฉ์ดํ๋ฉฐ ์ฌ์ฉํ๊ธฐ ์ฌ์ด ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ฅผ ์ ๊ณตํ๋ค.
๋ฐ์ดํฐํ๋ ์, ์๋ฆฌ์ฆ, ์ธ๋ฑ์ค ๋ฑ์ ์๋ฃ๊ตฌ์กฐ๋ฅผ ์ ๊ณตํ๋ฉฐ ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ํ ์ด๋ธ๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ก, SQL๊ณผ ๊ฐ์ ํํ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ธฐ ๋๋ฌธ์ ์ฝ๊ฒ ์ ๊ทผํ ์ ์๋ค.
๋จ๋ ์ฌ์ฉ๋ณด๋ค๋ NumPy, scikit-leran, matplotlib ๊ณผ ํจ๊ป ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
(1) ํ๋ค์ค์ ์๋ฃ๊ตฌ์กฐ
ํ๋ค์ค๊ฐ ์ ๊ณตํ๋ ์๋ฃ๊ตฌ์กฐ์ด๋ค.
์๋ฆฌ์ฆ๋ ๋ฐฐ์ด ํ์, ๋ฐ์ดํฐํ๋ ์์ ํ ํ์์ ๊ตฌ์กฐ์ด๋ฉฐ ์๋ฆฌ์ฆ๊ฐ ๋ชจ์ฌ ๋ฐ์ดํฐํ๋ ์์ ๊ตฌ์ฑํ๋ค.
์๋ฆฌ์ฆ : ๊ฐ(values) + ์ธ๋ฑ์ค(index)
๋ฐ์ดํฐํ๋ ์ : ์นผ๋ผ(columns) + ์ธ๋ฑ์ค(index) + ๊ฐ(values)
๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๋น๊ตํ์ ๋, ๋ฐ์ดํฐํ๋ ์์ ํ ์ด๋ธ๊ณผ ๋น์ทํ๋ค.
๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค | ๋ฐ์ดํฐํ๋ ์ |
์นผ๋ผ | ์นผ๋ผ |
ํ ๋ฒํธ | ์ธ๋ฑ์ค |
ํ ์ ๋ณด(๋ด์ฉ) | ์๋ฆฌ์ฆ |
(2) ์๋ฆฌ์ฆ
ํ๋ค์ค์ ๊ธฐ๋ณธ ์๋ฃ์ฃผ๊ณ ๋ก, ๊ฐ์ ๋ฐฐ์ด๊ณผ ์ธ๋ฑ์ค ๋ฐฐ์ด๋ก ๊ตฌ์ฑ๋๋ค.
์๋ฆฌ์ฆ๋ ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ํ ์ด๋ธ์ ํ ํ๊ณผ ๋น์ทํ๋ฉฐ, ์๋ฆฌ์ฆ์ ์ธ๋ฑ์ค๋ ํ ์ด๋ธ์ ์นผ๋ผ ์ด๋ฆ๊ณผ ๋น์ทํ๋ค.
์์ฑ
์๋ฆฌ์ฆ๋ฅผ ์์ฑํ ๋๋ pd.Series() ์์ ๋ฐฐ์ด ๋ด์ฉ์ ์ ๋ ฅํด ์์ฑํ๋ค.
๋ณ๋์ ์ธ๋ฑ์ค๋ฅผ ์ง์ ํ์ง ์๋๋ค๋ฉด ์ซ์๋ก ์ธ๋ฑ์ค๊ฐ ์์ฑ๋๋ค.
์ธ๋ฑ์ค๋ฅผ ์ง์ ํ๋ ค๋ฉด index ์์ฑ์ ์ง์ ํด์ฃผ๋ฉด ๋๊ณ , reindex ๋ฅผ ์ด์ฉํ๋ฉด ์ธ๋ฑ์ค์ ์์๋ฅผ ๋ฐ๊ฟ ์ ์๋ค.
ํ์ด์ฌ์ ๋์ ๋๋ฆฌ๋ฅผ ํตํด์๋ ์๋ฆฌ์ฆ๋ฅผ ์์ฑํ ์ ์๋ค.
(ํ์ด์ฌ์ ๋์ ๋๋ฆฌ ์๋ฃํ์ key ์ values ๋ก ๊ตฌ์ฑ๋์ด ์์)
์กฐํ
์๋ฆฌ์ฆ์์๋ ๊ฐ์ ์กฐํํ ๋ ์ธ๋ฑ์ค ๋ฒํธ๋ ์ด๋ฆ์ ์ฌ์ฉํ ์ ์๋ค. (๋ฐฐ์ด๊ณผ ๋น์ทํจ)
์กฐ๊ฑด๋ฌธ์ ์ด์ฉํด์๋ ์กฐํ๊ฐ ๊ฐ๋ฅํ๋ค.
์ธ๋ฑ์ค ์ด๋ฆ์ผ๋ก ์กฐํํ๋ ๋ฐฉ๋ฒ ์ค
'์๋ฆฌ์ฆ๋ช [์ธ๋ฑ์ค๋ช ]' ๋ฐฉ๋ฒ์ ๋์ ๋๋ฆฌ ์๋ฃํ ์ ๊ทผ๋ฒ์ด๊ณ , '์๋ฆฌ์ฆ๋ช .loc[์ธ๋ฑ์ค๋ช ]'์ ํจ์๋ฅผ ์ด์ฉํ ๋ฐฉ๋ฒ์ด๋ค.
๋ํ .isnull() ์กฐ๊ฑด์ ๊ฐ์ด null ์ธ ์ธ๋ฑ์ค์ ๊ฐ์ ๋ฐํํ๊ณ , .notnull() ์กฐ๊ฑด์ ๊ทธ ๋ฐ๋์ ๊ฒฝ์ฐ๋ฅผ ๋ฐํํ๋ค.
๋ณ๊ฒฝ
์กฐํ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋ฐ๊ฟ ๊ณณ์ ์ง์ ํ๊ณ , ๊ฐ์ ๋ณ๊ฒฝํ๋ค.
์ฌ๋ฌ ์ธ๋ฑ์ค๋ฅผ ํ๊บผ๋ฒ์ ๋ฐ๊ฟ ๊ฒฝ์ฐ์ ์ธ๋ฑ์ค๋ ๋ฆฌ์คํธํ์ผ๋ก ์ง์ ํ๊ณ ๊ฐ์ ํํ๋ก ์ง์ ํ๋ค.
์ญ์
์ญ์ ์ ๊ฒฝ์ฐ์ del ๋ช ๋ น์ด๋ drop() ํจ์๋ฅผ ์ด์ฉํ๋ค.
drop() ์ ์ญ์ ํ ๊ฒ์ ๋ณต์ฌํด์ ๋ฐํํ๋ฉฐ, inplace ์ต์ ์ ์ถ๊ฐํ๋ฉด ๋ฐ์ดํฐ๋ฅผ ๋ณต์ฌํ์ง ์๊ณ ๋ฐ๋ก ์ญ์ ํ๋ค.
๋ฐ๋ผ์ ์ต์ ์ ์ถ๊ฐํ์ง ์๊ณ drop() ๋ง ์ํํ๋ฉด ์ค์ ๋ก๋ ๋ฐ์ดํฐ๊ฐ ์ญ์ ๋์ง ์๋๋ค.
์์ฑ
์๋ฆฌ์ฆ์๋ name, index, values ์์ฑ์ด ์๋ค.
์๋ฆฌ์ฆ๋ฅผ ์ฒ์ ์์ฑํ ๋ name ์์ฑ์ด ์์ง๋ง .name() ์ผ๋ก ์ง์ ํ๋ฉด name ์์ฑ์ด ๋ง๋ค์ด์ง๋ค.
'์๋ฆฌ์ฆ๋ช .์์ฑ' ๋ช ๋ น์ด๋ฅผ ์ ๋ ฅํด ์์ฑ์ ์ธ๋ถ ๋ด์ฉ์ ์กฐํํ ์ ์๋ค.
'์คํฐ๋ > Data Analytics' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[PySpark] ์ฅฌํผํฐ ๋ ธํธ๋ถ์ผ๋ก PySpark ์ฌ์ฉํ๊ธฐ (0) | 2022.02.25 |
---|---|
[Hadoop] YARN - ๋ฆฌ์์ค ๊ด๋ฆฌ์์ ์ค์ผ์ค๋ฌ (0) | 2022.02.24 |
[Hadoop] ํ๋ก ์ค์นํ๊ณ ํ์ธํด๋ณด๊ธฐ (0) | 2022.02.23 |
[Spark] ์คํํฌ ์ค์นํ๊ณ csv ํ์ผ ๋ถ๋ฌ์ค๊ธฐ (0) | 2022.02.15 |
[Hadoop] ํ๋ก๊ณผ ๋ถ์ฐ ํ์ผ ์์คํ (0) | 2022.02.14 |