240527 Today I Learn
ํ๊ท ์ด๋?
ํ๊ท ์ด๋?
a single number or value that best represents a set of data
๋ฐ์ดํฐ ์งํฉ์ ๊ฐ์ฅ ์ ๋ํ๋ด๋ ๋จ์ผ ์ซ์ ๋๋ ๊ฐ์ ์ด์ผ๊ธฐํ๋ค.
์๋์ ์ด์์น
๐ก ์๋, Skewness
์๋๋ ํน์ ํ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ดํฐ๊ฐ ์ ๋ ค์๋ ๊ฒ์ผ๋ก, ์๋๊ฐ ์์ผ๋ฉด ํ๊ท ์ด ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ํํ์ง ๋ชปํ๋ค.
๋ณดํต ๊ทธ๋ํ๋ก ํ์ธํ๋ฉฐ ๊ผฌ๋ฆฌ(tail, ๊ธธ๊ฒ ๋์ด์ง ๋ถ๋ถ)์ ๋ฐฉํฅ์ ๋ฐ๋ผ left skewed/ right skewed๋ก ๊ตฌ๋ถํ๋ค.
- ์ผ๊ผฌ๋ฆฌ ๋ถํฌ, Left Skewed
- ํ๊ท < ์ค์๊ฐ
- ๋ถํฌ๊ฐ ์ผ์ชฝ์ผ๋ก ๋ชฐ๋ ค์๊ณ ์ค๋ฅธ์ชฝ์ผ๋ก ๊ธด ๊ผฌ๋ฆฌ๊ฐ ๋์ด์ง ํํ
- ์ค๋ฅธ ๋ถํฌ, Right Skewed
- ํ๊ท > ์ค์๊ฐ
- ๋ถํฌ๊ฐ ์ค๋ฅธ์ชฝ์ผ๋ก ๋ชฐ๋ ค์๊ณ ์ผ์ชฝ์ผ๋ก ๊ธด ๊ผฌ๋ฆฌ๊ฐ ๋์ด์ง ํํ
๐ก ์ด์์น,Outlier
๋ค๋ฅธ ๊ด์ธก์น์ ์ ์ํ๊ฒ ๋ค๋ฅธ ๋ฐ์ดํฐ
* ์ ์ํ๋ค๋ ๊ฒ์ ์๋ฏธ๋ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ๋ค๋ฅผ ์ ์๊ธฐ ๋๋ฌธ์ ์ด์์น์ ๋ถ๋ฅ๋ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ํฌ๊ฒ ๋ฌ๋ผ์ง๋ค.
- IQR ๊ธฐ์ค ์ด์์น
- IQR = Q3(0.75 quantile) - Q1(0.5 quantile)
- IQR ๊ธฐ์ค ์ด์์น๋ Q3+1.5*IQR ๋ณด๋ค ํฌ๊ฑฐ๋, Q1-1.5*IQR๋ณด๋ค ์์ ๊ฒฝ์ฐ๋ฅผ ์ด์ผ๊ธฐํ๋ค.
- ์ด์์น์ ์ ์์ ํ๋ณ์ ์ด๋ ค์ด ๋ฌธ์ ์ด๊ธฐ ๋๋ฌธ์ ๋จ์ํ๊ฒ ์ ๊ทผํ๋ฉด ๋ฌธ์ ๊ฐ ์๊ธฐ๊ธฐ ์ฌ์
- ์์์ ์ด์์น๋ ํ๊ท ์ ํฐ ์ํฅ์ ์ฃผ๊ธฐ ๋๋ฌธ์ ํ๊ท ์ ๊ตฌํ ๋ ์ ๊ฑฐ ๋๋ ๋ณํ ํ๋ ๊ฒ์ด ์ผ๋ฐ์
๋ค์ํ ํ๊ท
๋ํฏ๊ฐ 3M
1. ์ฐ์ ํ๊ท
๐ก ์ฐ์ ํ๊ท
๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ํ ๋ค ์ ์ฒด ๋ฐ์ดํฐ์ ์๋ก ๋๋ ์ค ๊ฒ
- ์๋์ ์ด์์น์ ์ทจ์ฝํจ
2. ์ค์๊ฐ
๐ก ์ค์๊ฐ
๋ฐ์ดํฐ๋ฅผ ์ค์ธ์ ์ ๋ ๊ฐ์ด๋ฐ์ ์๋ ๊ด์ธก์น
→ n์ด ํ์์ผ ๋ ์ค์๊ฐ์ (n+1)/2๋ฒ์งธ์ ์๋ ๊ฐ์ด๊ณ , ์ง์์ผ ๋์๋ ((n/2๋ฒ์งธ ๊ฐ)+(n/2+1๋ฒ์งธ ๊ฐ))/2 ๋ฅผ ์ค์๊ฐ์ผ๋ก ํ๋ค.
- ์๋์ ์ด์์น์ ๊ฐ์ธrobustํ์ฌ ํ๊ท ์ ๋์์ผ๋ก ๋ง์ด ํ์ฉํ๋ค.
3. ์ต๋น๊ฐ
๐ก ์ต๋น๊ฐ
๊ฐ์ฅ ๋น๋ฒํ๊ฒ ๋ฑ์ฅํ๋ ๊ด์ธก์น๋ก, ๋ฑ์ฅํ๋ ๊ด์ธก์น์ ๊ฐ์ด ๋ค์ํ์ง ์์ ๊ฒฝ์ฐ ํจ๊ณผ์ ์ผ๋ก ์ฐ์
- ์๋ฆฌ์ ํ๊ท ์ ์๋ฏธ๋ก๋ ๋ฐ๋์ง ํ์ง ์๋ค.
- ๊ทธ๋ฌ๋ ๋ฒ์ฃผํ ๋ฐ์ดํฐ์์๋ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ ์ ์์.
๊ธฐํ ํ๊ท
1. ๊ธฐํํ๊ท
๐ก๊ธฐํํ๊ท
๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๊ณฑํ ๋ค ์ ์ฒด ๋ฐ์ดํฐ์ ์๋ก ์ ๊ณฑ๊ทผ์ ์ทจํด์ค ๊ฒ
- MLE์ ์ฌ์ฉ๋จ
2. ์กฐํํ๊ท
๐ก ์กฐํํ๊ท
์ญ์์ ์ฐ์ ํ๊ท ์ ์ญ์๋ก ํ๊ท ์ ๋ณํ์จ์ ๊ตฌํ ๋ ์ฃผ๋ก ์ฌ์ฉ๋๋ค.
- F1-Score, ์๊ณ์ด ๋ฐ์ดํฐ์ ์ด๋ํ๊ท ์ ๊ตฌํ ๋ ์ฌ์ฉ
3. ๋ก๊ทธํ๊ท
๐ก ๋ก๊ทธํ๊ท
๊ฐ ๊ด์ธก์น๋ฅผ ๋ก๊ทธ ๋ณํํ ๋ค ์ฐ์ ํ๊ท ์ ์ง๊ณ
* ๋ก๊ทธ์ ๋ฐ์ผ๋ก๋ ์ค์ผ๋ฌ ์์ e=2.781828...์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉํ๋ค.
- ์ค์๊ฐ๊ณผ ์ ์ฌํ๊ฒ ์ด์์น์ ์๋์ ๊ฐ๊ฑด
- ๋ก๊ทธ ๋ณํ์ผ๋ก ์ธํด ๊ฒฐ๊ณผ๊ฐ์ ๋ํ ์ง์ ์ ์ธ ํด์์ด ์ด๋ ค์, ์๋์ ์ธ ๋น๊ต์ ์ ์ฉ
4. ์ ์ญํ๊ท
๐ก ์ ์ญํ๊ท
ํธ์ฐจ๊ฐ ํฐ ์๋ฃ์ ๊ฒฝ์ฐ, ์๋ฃ์ ์ด ๊ฐ์์์ ์ผ์ ๋น์จ๋งํผ ๊ฐ์ฅ ํฐ ๋ถ๋ถ๊ณผ ์์ ๋ถ๋ถ์ ์ ๊ฑฐ ํ ํ๊ท ์ ์ฐ์ถํ๋ ๋ฐฉ๋ฒ
์/ํ์ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ถ(k%) ์ ๊ฑฐํ ๋ค ์ฐ์ ํ๊ท ์ ๊ตฌํ๋ค.
- ๊ทน๋จ์ ์ธ ๊ฐ๋ค์ ์ ๊ฑฐํด ์ด์์น์ ๊ฐ๊ฑด, ๊ทธ๋ฌ๋ ์๋์๋ ์ทจ์ฝํ ์ ์์
- ๋ณํ์ด ์๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ณผ๊ฐ์ ๋ํ ์ง์ ์ ํด์์ด ๊ฐ๋ฅ
'๐ Data Analysis > ๐๏ธ Note' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ ํน๊ฐ #2 ํฌ๋กค๋ง (0) | 2024.08.27 |
---|---|
๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ ํน๊ฐ #1 API (0) | 2024.07.16 |
ํต๊ณํ ๊ธฐ์ด (3) ANOVA, ์ ํํ๊ท๋ถ์ (0) | 2024.05.29 |
ํต๊ณํ ๊ธฐ์ด (2) ํต๊ณ์ ๊ฐ์ค๊ฒ์ (0) | 2024.05.28 |
๋ฐ์ดํฐ ๋ฆฌํฐ๋ฌ์ (0) | 2024.05.07 |