240528 Today I Learn
ํต๊ณ์ ๊ฐ์ค๊ฒ์ ์ด๋?
๐ก ํต๊ณ์ ๊ฐ์ค๊ฒ์ ์ด๋?
์ฃผ์ด์ง ์๋ฃ๊ฐ ํน์ ๊ฐ์ค์ ์ถฉ๋ถํ ๋ท๋ฐ์นจํ๋์ง ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ๋ ํต๊ณ์ ์ถ๋ก ๋ฐฉ๋ฒ
- ๋ชจ์์ ๋ํ ์์, ์ฃผ์ฅ ๋ฑ์ ์ณ๊ณ ๊ทธ๋ฆ์ ํ๋ณธ์ผ๋ก๋ถํฐ ์ฃผ์ด์ง๋ ์ ๋ณด๋ฅผ ์ด์ฉํด ํ๋จํ๋ ์ฌํ์ ๋ถ์๊ณผ์ ์ผ๋ก, ์๋ฐ๋ ๋๊ฐ์ง ๊ฐ์ค ์ค ํ๊ฐ์ง๋ฅผ ์์ง๋ ์๋ฃ์ ๊ทผ๊ฑฐํด ์ ํํ๋ ๋ถ์๊ณผ์ (2020 ํํต ๊ฐ์)
- ํต๊ณ์ ๊ฐ์ค๊ฒ์ ์ 4๋จ๊ณ
- ๊ท๋ฌด๊ฐ์ค๊ณผ ๋๋ฆฝ ๊ฐ์ค ์ค์ ํ๊ธฐ
- ๊ฐ์ค๊ฒ์ ์ ์ํ ํ๋ณธํต๊ณ๋ ์ ํํ๊ธฐ
- ๊ธฐ๊ฐ์ญ ์ค์ ํ๊ธฐ
- ํต๊ณ์ ๊ฒฐ๋ก ๋ด๋ฆฌ๊ธฐ → ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐ ์ฌ๋ถ, ๊ฒฐ๋ก ์ ๋ง๋ก ๊ธฐ์ ํ๋ค.
๊ฐ์ค ๊ฒ์ ํ๊ธฐ
๊ท๋ฌด๊ฐ์ค๊ณผ ๋๋ฆฝ๊ฐ์ค
- ๊ท๋ฌด๊ฐ์ค, Null Hypothesis (H0)
- ์ง๊ธ๊น์ง ์ณ๋ค๊ณ ๋ฏฟ์ด์จ ์ฃผ์ฅ
- ์ฃผ๋ก ํ์ฌ๊น์ง ์ธ์ ๋๊ณ ์๋ ์ฌ์ค ๋๋ ๊ฐ๋จํ๊ณ ๊ตฌ์ฒด์ ์ธ ์ฌ์ค์ ์ง์
- ์์ - ์ธ์คํ์นดํธ๋ฅผ ์ด์ฉํ๋ ์ ์ ๋ค์ 1ํ ์ํ ๊ตฌ๋งค๋์, ์ฃผ์ค๊ณผ ์ฃผ๋ง์ ์ฐจ์ด๊ฐ ์๋ค
- ๋๋ฆฝ๊ฐ์ค, Alternative Hypothesis(H1)
- ๊ท๋ฌด๊ฐ์ค์ ์๋ฐ๋๋ ์๋ก์ด ์ฃผ์ฅ
- ์๋ก์ด ์ฐ๊ตฌ๋ฅผ ํตํด ์ฃผ์ฅํ๋ ค๋ ์ฌ์ค ๋๋ ๊ท๋ฌด๊ฐ์ค์์ ์ง์ ๋์ง ์์ ๊ฒฝ์ฐ๋ค์ ํฌ๊ด์ ์ผ๋ก ์ง์
- ์์ - ์ธ์คํ์นดํธ๋ฅผ ์ด์ฉํ๋ ์ ์ ๋ค์ 1ํ ์ํ ๊ตฌ๋งค๋์, ์ฃผ์ค๊ณผ ์ฃผ๋ง์ ์ฐจ์ด๊ฐ ์๋ค
p-value์ ๊ท๋ฌด๊ฐ์ค
์ ์ํ๋ฅ , p-value
๐ก ์ ์ํ๋ฅ , p-value
๊ฒ์ ํต๊ณ๋ ๊ฐ์ผ๋ก๋ถํฐ ์ญ์ฐํ ์ ์์์ค์ผ๋ก, ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ์ ์๋ ์ต์์ ์ ์์์ค์ด๋ค.
์ ๋ขฐ๊ตฌ๊ฐ๊ณผ ๊ฐ์ค๊ฒ์
๐ก ์ ๋ขฐ๊ตฌ๊ฐ, Confidence Interval
๋ชจ์๊ฐ ์ค์ ๋ก ํฌํจ๋ ๊ฒ์ผ๋ก ์์๋๋ ๋ฒ์.
์ ๋ขฐ๊ตฌ๊ฐ์ด ์ข์์๋ก ๋ชจ์ง๋จ ํ๊ท ์ถ์ ์น๊ฐ ์ ํํด์ง.
- 100(1-alpha)% ์ ๋ขฐ๊ตฌ๊ฐ ์ถ์ = ์ ์์์ค alpha์์ ์๋ฉด๊ฐ์ค ๊ฒ์
- ๊ตฌ๊ฐ ์ถ์ ๊ฐ ์์ ๊ฐ์ ๋ ๋ชจํ๊ท ์ด ํฌํจ๋์ด์์ผ๋ฉด, ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ์ ์๊ณ ํฌํจ๋์ด์์ง ์์ผ๋ฉด ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํจ.
์ ๋ขฐ์์ค๊ณผ ์ค๋ฅ
- 1์ข
์ค๋ฅType I Error
- ๊ท๋ฌด๊ฐ์ค์ด ๋ง์๋๋ฐ ๊ธฐ๊ฐํ๋ ๊ฒ
- ์ผ๋ฐ์ ์ผ๋ก ํต๊ณํ์ 1์ข ์ค๋ฅ๋ฅผ ๋ ์ค์์ํ์ฌ ์ด๋ฅผ ๊ธฐ์ค์ผ๋ก ์ก๊ณ , 2์ข ์ค๋ฅ๋ฅผ ์ต์ํํฉ๋๋ค.
- 2์ข
์ค๋ฅType II Error
- ๊ท๋ฌด๊ฐ์ค์ด ํ๋ ธ๋๋ฐ ๊ธฐ๊ฐํ์ง ๋ชปํ๋ ๊ฒ
T-Test
T-๊ฒ์
- T-Test ๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ
- ์ ๊ท ๋ชจ์ง๋จ ๊ฐ์
- ๋ชจ์ง๋จ์ด ์๋ ค์ง์ง ์์ ๊ฒฝ์ฐ
- n์ด ์์ ๋ (๋ณดํต n<=30) → CLT ๋ง์กฑ x, n์ ํฌ๊ธฐ๊ฐ ์ปค์ง๋ฉด t๋ถํฌ๋ ์ ๊ท๋ถํฌ์ ์๋ ด
- T๋ถํฌ
T-Test ์ ์ข ๋ฅ
์ผํ๋ณธ, One Sample t-test
- ์๋ ค์ง ๊ฐ์ ๋ํ ํ๋ณธ์ ํ๊ท ์ ๋น๊ต
- ์์ 1 - ์์ดํฐ ์ฌ์ฉ์ 100๋ช ์ ๋ง์กฑ๋ ํ๊ท ๊ณผ ๊ธฐ์ค์ผ๋ก ์ ์ํ 5๋ฅผ ๋น๊ตํ๋ ๊ฒฝ์ฐ
- ์์ 2 - ๊ฒฝ์๋ ๋ง์กฑ๋๊ฐ 3๋ณด๋ค ๋์์ง ์๋์ง?
์ดํ๋ณธ, Two-sample t-test
- ์ฃผ์ด์ง ๋ณ์์ ๋ํ ๋ ๊ทธ๋ฃน์ ํ๊ท ์ ์๋ฅผ ๋น๊ต
- ์์ 1 - ์์ดํฐ ์ฌ์ฉ์์ค ์ฌ์ฑ 100๋ช ๊ณผ ๋จ์ฑ 100๋ช ์ ๋ง์กฑ๋๋ฅผ ๋น๊ต
- ์์ 2 - ์ฃผ์ ๊ณต vs. ๋ณต์์ ๊ณต๊ฐ ๊ฒฝ์๋ ๋ง์กฑ๋ ๋น๊ต
๋์ํ๋ณธ, Paired t-test
- ๋ ๋ณ์์ ํ๊ท ์ ๋น๊ต. ๊ฐ ๊ฒฝ์ฐ์ ๋ํด ๋ ๋ณ์์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๊ณ ํ๊ท ์ฐจ์ด๊ฐ 0๊ณผ ์ ์ํ๊ฒ ๋ค๋ฅธ์ง ๊ฒ์ .
- ์ ํํ ํ๋ณธ์ผ๋ก ํต์ ๋ ํ๊ฒฝ์์ ์ธก์ ๋์ด์ผ ํจ.
- ์์ 1 - A๋ผ๋ ์ฌ์ฉ์๊ฐ ์์ดํฐ 14pro์ ์์ดํฐ 14๋ฅผ ์ฌ์ฉํด๋ณด๊ณ ๋ง์กฑ๋๋ฅผ ํ๊ฐ, ๋น๊ต
- ์์ 2 - ํ๊ต ์ ์ฒด vs. ๊ฒฝ์๋ ๋ง์กฑ๋ ๋น๊ต
'๐ Data Analysis > ๐๏ธ Note' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ ํน๊ฐ #2 ํฌ๋กค๋ง (0) | 2024.08.27 |
---|---|
๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ ํน๊ฐ #1 API (0) | 2024.07.16 |
ํต๊ณํ ๊ธฐ์ด (3) ANOVA, ์ ํํ๊ท๋ถ์ (0) | 2024.05.29 |
ํต๊ณํ ๊ธฐ์ด (1) ํ๊ท ์ด๋ ๋ฌด์์ธ๊ฐ? (0) | 2024.05.27 |
๋ฐ์ดํฐ ๋ฆฌํฐ๋ฌ์ (0) | 2024.05.07 |