240529 Today I Learn
์๋ฃํ๊ณผ ํต๊ณ๋ชจํ
์๋ฃํ
- ์ง์ Qualitative ์๋ฃ: ์์น ์ฐ์ฐ์ด ๋ถ๊ฐํ ์๋ฃ์
๋๋ค. ๋ฒ์ฃผํCategorical์ด๋ผ๊ณ ๋ ํฉ๋๋ค.
- ๋ช ๋ชฉํNominal: ์ด๋ฆ, ์ฑ๋ณ๊ณผ ๊ฐ์ด ์๊ณ๋ ์์๊ฐ ์๋ ์๋ฃ์ ๋๋ค.
- ์์ํOrdinal: ํ๋ ๋ณ์ ๊ณผ ๊ฐ์ด ์์๊ฐ ์์ง๋ง ์ฌ์น์ฐ์ฐ์ด ์ ์ฉ๋๊ธฐ ์ด๋ ค์ด ์๋ฃ์ ๋๋ค.
- ์์ Quantitative ์๋ฃ: ์์น ์ฐ์ฐ์ด ๊ฐ๋ฅํ ์๋ฃ์
๋๋ค.
- ์ฐ์ํContinuous: ๊ธธ์ด๋ ๋ฌด๊ฒ์ฒ๋ผ, ๋ถ์ ๋์ง ์๊ณ ์ฐ์์ ์ธ ์์นํ ์๋ฃ์ ๋๋ค.
- ์ด์ฐํDiscrete: ๊ฐ์์ ๊ฐ์ด ์ฐ์์ ์ด์ง ์์ ์์นํ ์๋ฃ์ ๋๋ค.
๋ ๋ฆฝ ๋ณ์์ ์ข ์ ๋ณ์
- ์ข
์ ๋ณ์Dependent variable
- ์ฐ๋ฆฌ๊ฐ ์์ธก ํน์ ์ค๋ช ํ๊ณ ์ ํ๋ ๋ณ์์ ๋๋ค.
- ๋ฐ์ ๋ณ์, ํ์ ๋ณ์, ์์ธก ๋ณ์ ๋ฑ์ด๋ผ๊ณ ๋ ํฉ๋๋ค.
- ๋
๋ฆฝ ๋ณ์Independent variable
- ์ข ์ ๋ณ์๋ฅผ ์์ธก/์ค๋ช ํ๋ ๋ฐ ํ์ฉํ๋ ๋ณ์์ ๋๋ค.
- Predictor, ์ค๋ช ๋ณ์, ์์ธFactor, ํผ์ณFeature ๋ฑ์ผ๋ก๋ ๋ถ๋ฆ ๋๋ค.
์๋ฃํ๊ณผ ํต๊ณ๋ชจํ
์ข ์๋ณ์ | |||
์ง์ ์๋ฃ(categorical) | ์์ ์๋ฃ | ||
๋ ๋ฆฝ๋ณ์ | ์ง์ ์๋ฃ(categorical) | ์นด์ด์ ๊ณฑ๊ฒ์ , ๋ก์ง์คํฑ ํ๊ท | T-test, ANOVA, ์ ํํ๊ท |
์์ ์๋ฃ | ๋ก์ง์คํฑํ๊ท | ์๊ด๋ถ์, ์ ํํ๊ท |
๋ถ์ฐ๋ถ์, ANOVA
์ธ ์ง๋จ ์ด์์ ํ๊ท ๋ถ์์ ๋ ๋ชจ์ง๋จ์ ํ๊ท ์ฐจ์ด ๊ฒ์ ์ ์ด์ฉํ ๊ฒฝ์ฐ (1) ๋ฒ๊ฑฐ๋ก์ธ ๋ฟ๋ง ์๋๋ผ, (2) 1์ข ์ค๋ฅ ๊ฐ์ด ์ปค์ง๊ฒ ๋๋ค. ๋ฐ๋ผ์ ์ด๋์๋ ๋ถ์ฐ๋ถ์(ANOVA)์ ํ์ฉํ๋ค.
๐ก ANOVA(ANalysis Of VAriance)
ํต๊ณํ์์ ๋ ๊ฐ ์ด์ ๋ค์์ ์ง๋จ์ ์๋ก ๋น๊ตํ๊ณ ์ ํ ๋ ์ง๋จ ๋ด์ ๋ถ์ฐ, ์ดํ๊ท ๊ทธ๋ฆฌ๊ณ ๊ฐ ์ง๋จ์ ํ๊ท ์ ์ฐจ์ด์ ์ํด ์๊ธด ์ง๋จ ๊ฐ ๋ถ์ฐ์ ๋น๊ต๋ฅผ ํตํด ๋ง๋ค์ด์ง F๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ ๊ฐ์ค๊ฒ์ ์ ํ๋ ๋ฐฉ๋ฒ
์นด์ด์ ๊ณฑ๊ณผ F๋ถํฌ
์นด์ด์ ๊ณฑ๋ถํฌ
๐ก ์นด์ด์ ๊ณฑ๋ถํฌ
๐๊ฐ์ ์๋ก ๋ ๋ฆฝ์ ์ธ ํ์ค์ ๊ท ํ๋ฅ ๋ณ์๋ฅผ ๊ฐ๊ฐ ์ ๊ณฑํ ๋ค์ ํฉํด์ ์ป์ด์ง๋ ๋ถํฌ
→ ๐ : ์์ ๋ ๋ผ๊ณ ํ๋ฉฐ, ์นด์ด์ ๊ณฑ ๋ถํฌ์ ๋งค๊ฐ๋ณ์๊ฐ ๋๋ค.
F๋ถํฌ
๐ก F๋ถํฌ
๋ ์นด์ด์ ๊ณฑ์ ๋นRatio๋ฅผ ์ด์ฉํ๋ฉด ๋ ๋ถ์ฐ์ ๋น๊ตํ๋ ๋ถํฌ.
๋ ํ๋ฅ ๋ณ์ ๐1,๐2๊ฐ ๊ฐ๊ฐ ์์ ๋๊ฐ ๐1, ๐2์ด๊ณ ์๋ก ๋ ๋ฆฝ์ธ ์นด์ด์ ๊ณฑ ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ํ ๋, ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ ํ๋ฅ ๋ณ์ F๋ ์์ ๋๊ฐ (๐1,๐2)์ธ F-๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค
- ์ง๋จ ๊ฐ ๋ถ์ฐVariance between groups
- ๊ฐ ์ง๋จ ์ฌ์ด์ ํ๊ท ์ ๋ถ์ฐ์ ๊ตฌํฉ๋๋ค.
- ์ง๋จ ์ฌ์ด์ ํ๊ท ์ด ๋ฉ๋ฆฌ ๋จ์ด์ง์๋ก, ์ด ๊ฐ์ด ์ปค์ง๋๋ค
- ์ง๋จ ๋ด ๋ถ์ฐVariance Within groups
- ๊ฐ ์ง๋จ ๋ด์ ๋ถ์ฐ์ ๊ตฌํฉ๋๋ค
- ์ง๋จ ๋ด์ ๋ถ์ฐ์ด ํฌ๋ฉด, ์ง๋จ ์ฌ์ด์ ํ๊ท ์ด ๋ ์ปค์ผ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ์ ์์ต๋๋ค.
ANOVA์ ํต๊ณ์ ๊ฐ์ Assumption
๐ก ์ ๊ท์ฑ, Normality
์์ฐจ์ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฆ์ ๊ฐ์
QQplot์ ํตํด ์๊ฐ์ ์ผ๋ก ํ์ธํ ์ ์์.
- QQplot์ ํตํด ์๊ฐ์ ์ผ๋ก ํ์ธํ๊ฑฐ๋, ํต๊ณ์ ๊ฒ์ฌ๋ฅผ ํตํด ์ด๋ฅผ ์ง๋จํ ์ ์์
- ์ํ๋ณธ(n<=50)์ธ ๊ฒฝ์ฐ Shapiro, Kolmogorov๋ ๋น๊ต์ ๋ํ๋ณธ์ผ ๋ ์ ์ฉ
- ๋ก๊ทธ ๋ณํ, ์ด์์น ์ ๊ฑฐ๋ก ํด๊ฒฐ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์.
๐ก ๋ฑ๋ถ์ฐ์ฑ, Homoscadasticity
๊ฐ ์ง๋จ์ ๋ถ์ฐ์ ๋์ผํ๋ค.
๋ฐํ๋ ๊ฒ์ ์ ์ฌ์ฉํด ํ์ธํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์.
- ๋ฐํ๋ ๊ฒ์ ์ ํ์ฉํด ๋ฑ๋ถ์ฐ์ฑ์ ํ์ธํจ
- ์ ๊ท์ฑ์ ๊ต์ ํ๋ฉด ํด๊ฒฐ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์.
๐ก ๋ ๋ฆฝ์ฑ, Independency
๊ฐ ๊ด์ธก์น๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ๋ถํฌํ๋ ๊ฒ.
๊ฐ ๋ฐ์ดํฐ์ ์์์ ๋ฐ๋ฅธ ํจํด(์๊ธฐ ์๊ด์ฑ / Auto-correlation)์ด ์กด์ฌํ์ง ์์์ผํ๋ค.
→ ํธํฅ (bias)
๋ถ์ฐ๋ถ์์ ํ๊ณ
ANOVA ๋ถ์ ๊ฒฐ๊ณผ ๋ฎ์ p-value (๋ณดํต 0.05~ 0.01๋ณด๋ค ์์ ๊ฒฝ์ฐ)๊ฐ ๋์์ ๋ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐ๋๋ค. ๊ท๋ฌด๊ฐ์ค์ด ๊ธฐ๊ฐ๋ ๋, ์ฐ๋ฆฌ๋ ์ ์ด๋ ํ๋์ ์ง๋จ์ ํ๊ท ์ด ๋ค๋ฅด๋ค๋ ๊ฑธ ์ ์ ์๋ค. ๊ทธ๋ฌ๋ ์ด๋ ์ง๋จ์ ํ๊ท ์ด ๋ค๋ฅธ ์ง๋ ์ ์ ์๋ค๋ ์ ์์ ํ๊ณ๊ฐ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ์ฌํ๋ถ์์ ์งํํ๋ค.
๋ค์ํ ์ข ๋ฅ์ ์ฌํ๋ถ์ ๋ฐฉ๋ฒ์ด ์์ง๋ง, ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ Tucky์ ๋ํด ์์๋ณด๊ฒ ๋ค.
Tucky๐ฆ
- ๋น๊ต ๋์ ํ๋ณธ์๊ฐ ๋์ผํ ๊ฒฝ์ฐ์๋ง ์ฌ์ฉ ๊ฐ๋ฅ
- ๋ชจ๋ ์ง๋จ ์กฐํฉ์ ๋ํ์ฌ ๋ถ์
- ์ฅ์ : ํ๋ณธ์๊ฐ ๋์ผํ ๊ฒฝ์ฐ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ์ฌํ ๊ฒ์ ๊ธฐ๋ฒ
- ๋จ์
- ๋น๊ต ๋์ ํ๋ณธ์๊ฐ ๋์ผํ์ฌ์ผ ํจ
- ํ๋ณธ์๊ฐ ์ ์์๋ก ์ ํ๋๊ฐ ๋ฎ์์ง
์ค์ง์ vs. ํต๊ณ์ ์ ์
ํต๊ณ์ ์ผ๋ก ์ ์ํ ๊ฒฐ๊ณผ๋ ์ค์ง์ ์ผ๋ก ์ ์ํ์ง ์์ ์๋ ์๋ค.
- ํต๊ณ์ ์ ์ : p-๊ฐ์ด ์ง์ ๋ ์ ์์ฑ์์ค(α)(์ผ๋ฐ์ ์ผ๋ก 0.10, 0.05 ๋๋ 0.01)๋ณด๋ค ์๋์ธ ๊ฒฝ์ฐ ์ฐจ์ด๊ฐ ํต๊ณ์ ์ผ๋ก ์ ์ํ๋ค๊ณ ์ ์ธํ๊ณ ๊ฒ์ ์ ๊ท๋ฌด ๊ฐ์ค์ ๊ธฐ๊ฐํ ์ ์๋ค.
- ์ค์ง์ ์ ์ : ์ค์ ํจ๊ณผ์ ํฌ๊ธฐ๊ฐ ์ ์๋ฏธํ ๊ฒ
์ ํ ํ๊ท๋ถ์, Linear Regression
์ ํํ๊ท๋ถ์
๐ก ์ ํํ๊ท
์๋ ค์ง ๋ค๋ฅธ ๊ด๋ จ ๋ฐ์ดํฐ ๊ฐ์ ์ฌ์ฉํ์ฌ ์ ์ ์๋ ๋ฐ์ดํฐ์ ๊ฐ์ ์์ธกํ๋ ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ๋ฒ
์ข ์ ๋ณ์ y์ ํ ๊ฐ ์ด์์ ๋ ๋ฆฝ ๋ณ์ (๋๋ ์ค๋ช ๋ณ์) X์์ ์ ํ ์๊ด ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๋ ํ๊ท๋ถ์ ๊ธฐ๋ฒ
- ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ์ง์ ์ ์ฐพ๋ ๊ฒ์ด ๋ชฉํ
์ ํ ์๊ด ๊ด๊ณ (pearson)
- -1 ~ 1 ์ฌ์ด์ ์์น๋ก ๋ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ํ์
ํ๋ค.
- ์๊ด๊ณ์์ ์ ๋๊ฐ์ด 1์ ๊ฐ๊น์ธ ์๋ก ์๊ด๊ด๊ณ๊ฐ ํฌ๋ฉฐ
- ์๊ด๊ณ์๊ฐ ์์์ด๋ฉด ์์ ์๊ด๊ด๊ณ, ์์์ด๋ฉด ์์ ์๊ด๊ด๊ณ๋ผ๊ณ ํ๋ค.
๋ชจํ ํ๊ฐGoodness of fit
1. ๋ชจํ์ ์ฑ๋ฅ ํ๊ฐ : ๊ฒฐ์ ๊ณ์
๐ก ๊ฒฐ์ ๊ณ์ R²
์ ์ฒด y ์ ๋ณ๋๋(์์ฐจ์ ๊ณฑํฉ) ์ค์ ํ๊ท๋ชจํ์ด ์ค๋ช ํ๋ ๋ณ๋๋(SSreg)์ ๋น์จ
- 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง๋ฉฐ, 1์ ๊ฐ๊น์ธ์๋ก ๋ ์ข๋ค.
- ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ข ์ ๋ณ์์ ๋ณ๋์ ์ ์ค๋ช ํ๋์ง๋ก ํด์ํ ์ ์๋ค.
2. ํต๊ณ์ ์ ์์ฑ ํ์ธ : F๊ฒ์
ํ๊ท ๊ด๋ จ ๊ฐ๋
๐ก ๋๋ฏธ๋ณ์
๋ ๋ฆฝ๋ณ์๋ฅผ 0๊ณผ 1๋ก ๋ณํํ ๋ณ์
์ง์ ๋ณ์๋ ํ๊ท ๋ถ์์ ์ง์ ํฌ์ ํ๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅํ๋ค.
์ด๋ฌํ ์ง์ ๋ณ์๋ฅผ ํ๊ท๋ถ์์ ์ฌ์ฉํ๊ธฐ ์ํด Y/N ์ฌ๋ถ๋ฅผ 0/1 ์ ์ซ์ ํํ๋ก ๋์์ํจ ๋ณ์๋ฅผ ๋๋ฏธ๋ณ์๋ผ๊ณ ํ๋ค.
๐ก ๊ตํธ์์ฉ
ํ ์์ธ์ ํจ๊ณผ๊ฐ ๋ค๋ฅธ ์์ธ์ ์์ค์ ์์กดํ๋ ๊ฒฝ์ฐ.
- ๊ตํธ์์ฉ๋๊ฐ ํํ์ ์ผ๋ก ๋ํ๋๋ฉด ๊ตํธ์์ฉ์ด ์๋ค๋ ๊ฒ์ผ๋ก ํด์ํ ์ ์๋ค.
- ์ ์ฌ์ด์ ๊ธฐ์ธ๊ธฐ ์ฐจ์ด๊ฐ ํด์๋ก ๊ตํธ์์ฉ์ ์ ๋๊ฐ ๋ ๋๋ค.
- ๊ตํธ์์ฉ๋๋ก ๊ตํธ์์ฉ์ด ํต๊ณ์ ์ผ๋ก ์ ์ํ์ง ์ฌ๋ถ๋ ์ ์ ์๋ค.
์์ ๋์ ์ ์ฐ์ฑ
- ์์ ๋ : ๋ชจํ์์ ์ฌ์ฉํ ๋ชจ์์ ๊ฐ์
- ์ ํ ํ๊ท์ ๊ฒฝ์ฐ ๋ชจํ์ ์์ ๋๋ 1์ด๋ค.
- ์ ์ฒด ๋ฐ์ดํฐ ์ = ๋ชจํ์ ์์ ๋ + ์์ฐจ์ ์์ ๋
'๐ Data Analysis > ๐๏ธ Note' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ ํน๊ฐ #2 ํฌ๋กค๋ง (0) | 2024.08.27 |
---|---|
๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ ํน๊ฐ #1 API (0) | 2024.07.16 |
ํต๊ณํ ๊ธฐ์ด (2) ํต๊ณ์ ๊ฐ์ค๊ฒ์ (0) | 2024.05.28 |
ํต๊ณํ ๊ธฐ์ด (1) ํ๊ท ์ด๋ ๋ฌด์์ธ๊ฐ? (0) | 2024.05.27 |
๋ฐ์ดํฐ ๋ฆฌํฐ๋ฌ์ (0) | 2024.05.07 |