๐Ÿ“Š Data Analysis/๐Ÿ—‚๏ธ Note

ํ†ต๊ณ„ํ•™ ๊ธฐ์ดˆ (2) ํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ •

ny:D 2024. 5. 28. 23:57

240528 Today I Learn

์˜ค๋žœ๋งŒ์—.. ํ•™๋ถ€์ž๋ฃŒ ๋’ค์ ธ๋ณด๊ธฐ..

ํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ •์ด๋ž€?

๐Ÿ’ก ํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ •์ด๋ž€?
์ฃผ์–ด์ง„ ์ž๋ฃŒ๊ฐ€ ํŠน์ • ๊ฐ€์„ค์„ ์ถฉ๋ถ„ํžˆ ๋’ท๋ฐ›์นจํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ํ†ต๊ณ„์  ์ถ”๋ก  ๋ฐฉ๋ฒ•
  • ๋ชจ์ˆ˜์— ๋Œ€ํ•œ ์˜ˆ์ƒ, ์ฃผ์žฅ ๋“ฑ์˜ ์˜ณ๊ณ  ๊ทธ๋ฆ„์„ ํ‘œ๋ณธ์œผ๋กœ๋ถ€ํ„ฐ ์ฃผ์–ด์ง€๋Š” ์ •๋ณด๋ฅผ ์ด์šฉํ•ด ํŒ๋‹จํ•˜๋Š” ์‚ฌํ›„์  ๋ถ„์„๊ณผ์ •์œผ๋กœ, ์ƒ๋ฐ˜๋œ ๋‘๊ฐ€์ง€ ๊ฐ€์„ค ์ค‘ ํ•œ๊ฐ€์ง€๋ฅผ ์ˆ˜์ง‘๋œ ์ž๋ฃŒ์— ๊ทผ๊ฑฐํ•ด ์„ ํƒํ•˜๋Š” ๋ถ„์„๊ณผ์ • (2020 ํ™•ํ†ต ๊ฐ•์˜)
  • ํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ •์˜ 4๋‹จ๊ณ„
    • ๊ท€๋ฌด๊ฐ€์„ค๊ณผ ๋Œ€๋ฆฝ ๊ฐ€์„ค ์„ค์ •ํ•˜๊ธฐ
    • ๊ฐ€์„ค๊ฒ€์ •์„ ์œ„ํ•œ ํ‘œ๋ณธํ†ต๊ณ„๋Ÿ‰ ์„ ํƒํ•˜๊ธฐ
    • ๊ธฐ๊ฐ์—ญ ์„ค์ •ํ•˜๊ธฐ
    • ํ†ต๊ณ„์  ๊ฒฐ๋ก  ๋‚ด๋ฆฌ๊ธฐ → ๊ท€๋ฌด๊ฐ€์„ค์˜ ๊ธฐ๊ฐ ์—ฌ๋ถ€, ๊ฒฐ๋ก ์€ ๋ง๋กœ ๊ธฐ์ˆ ํ•œ๋‹ค.

๊ฐ€์„ค ๊ฒ€์ • ํ•˜๊ธฐ

๊ท€๋ฌด๊ฐ€์„ค๊ณผ ๋Œ€๋ฆฝ๊ฐ€์„ค

  • ๊ท€๋ฌด๊ฐ€์„ค, Null Hypothesis (H0)
    • ์ง€๊ธˆ๊นŒ์ง€ ์˜ณ๋‹ค๊ณ  ๋ฏฟ์–ด์˜จ ์ฃผ์žฅ
    • ์ฃผ๋กœ ํ˜„์žฌ๊นŒ์ง€ ์ธ์ •๋˜๊ณ  ์žˆ๋Š” ์‚ฌ์‹ค ๋˜๋Š” ๊ฐ„๋‹จํ•˜๊ณ  ๊ตฌ์ฒด์ ์ธ ์‚ฌ์‹ค์„ ์ง€์ •
    • ์˜ˆ์‹œ - ์ธ์Šคํƒ€์นดํŠธ๋ฅผ ์ด์šฉํ•˜๋Š” ์œ ์ €๋“ค์˜ 1ํšŒ ์ƒํ’ˆ ๊ตฌ๋งค๋Ÿ‰์€, ์ฃผ์ค‘๊ณผ ์ฃผ๋ง์— ์ฐจ์ด๊ฐ€ ์—†๋‹ค
  • ๋Œ€๋ฆฝ๊ฐ€์„ค, Alternative Hypothesis(H1)
    • ๊ท€๋ฌด๊ฐ€์„ค์— ์ƒ๋ฐ˜๋˜๋Š” ์ƒˆ๋กœ์šด ์ฃผ์žฅ
    • ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด ์ฃผ์žฅํ•˜๋ ค๋Š” ์‚ฌ์‹ค ๋˜๋Š” ๊ท€๋ฌด๊ฐ€์„ค์—์„œ ์ง€์ •๋˜์ง€ ์•Š์€ ๊ฒฝ์šฐ๋“ค์„ ํฌ๊ด„์ ์œผ๋กœ ์ง€์ •
    • ์˜ˆ์‹œ - ์ธ์Šคํƒ€์นดํŠธ๋ฅผ ์ด์šฉํ•˜๋Š” ์œ ์ €๋“ค์˜ 1ํšŒ ์ƒํ’ˆ ๊ตฌ๋งค๋Ÿ‰์€, ์ฃผ์ค‘๊ณผ ์ฃผ๋ง์— ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค

p-value์™€ ๊ท€๋ฌด๊ฐ€์„ค

์œ ์˜ํ™•๋ฅ , p-value

๐Ÿ’ก ์œ ์˜ํ™•๋ฅ , p-value
๊ฒ€์ •ํ†ต๊ณ„๋Ÿ‰ ๊ฐ’์œผ๋กœ๋ถ€ํ„ฐ ์—ญ์‚ฐํ•œ ์œ ์˜์ˆ˜์ค€์œผ๋กœ, ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ์†Œ์˜ ์œ ์˜์ˆ˜์ค€์ด๋‹ค.

์‹ ๋ขฐ๊ตฌ๊ฐ„๊ณผ ๊ฐ€์„ค๊ฒ€์ •

๐Ÿ’ก ์‹ ๋ขฐ๊ตฌ๊ฐ„, Confidence Interval
๋ชจ์ˆ˜๊ฐ€ ์‹ค์ œ๋กœ ํฌํ•จ๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ๋ฒ”์œ„.
์‹ ๋ขฐ๊ตฌ๊ฐ„์ด ์ข์„์ˆ˜๋ก ๋ชจ์ง‘๋‹จ ํ‰๊ท  ์ถ”์ •์น˜๊ฐ€ ์ •ํ™•ํ•ด์ง.

์ถœ์ฒ˜ : medium

  • 100(1-alpha)% ์‹ ๋ขฐ๊ตฌ๊ฐ„ ์ถ”์ • = ์œ ์˜์ˆ˜์ค€ alpha์—์„œ ์–‘๋ฉด๊ฐ€์„ค ๊ฒ€์ •
  • ๊ตฌ๊ฐ„ ์ถ”์ •๊ฐ’ ์•ˆ์— ๊ฐ€์ •๋œ ๋ชจํ‰๊ท ์ด ํฌํ•จ๋˜์–ด์žˆ์œผ๋ฉด, ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•  ์ˆ˜ ์—†๊ณ  ํฌํ•จ๋˜์–ด์žˆ์ง€ ์•Š์œผ๋ฉด ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•จ.

์‹ ๋ขฐ์ˆ˜์ค€๊ณผ ์˜ค๋ฅ˜

  • 1์ข… ์˜ค๋ฅ˜Type I Error
    • ๊ท€๋ฌด๊ฐ€์„ค์ด ๋งž์•˜๋Š”๋ฐ ๊ธฐ๊ฐํ•˜๋Š” ๊ฒƒ
    • ์ผ๋ฐ˜์ ์œผ๋กœ ํ†ต๊ณ„ํ•™์€ 1์ข… ์˜ค๋ฅ˜๋ฅผ ๋” ์ค‘์š”์‹œํ•˜์—ฌ ์ด๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์žก๊ณ , 2์ข… ์˜ค๋ฅ˜๋ฅผ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค.
  • 2์ข… ์˜ค๋ฅ˜Type II Error
    • ๊ท€๋ฌด๊ฐ€์„ค์ด ํ‹€๋ ธ๋Š”๋ฐ ๊ธฐ๊ฐํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒƒ

T-Test

T-๊ฒ€์ •

  • T-Test ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ
    • ์ •๊ทœ ๋ชจ์ง‘๋‹จ ๊ฐ€์ •
    • ๋ชจ์ง‘๋‹จ์ด ์•Œ๋ ค์ง€์ง€ ์•Š์€ ๊ฒฝ์šฐ
    • n์ด ์ž‘์„ ๋•Œ (๋ณดํ†ต n<=30) → CLT ๋งŒ์กฑ x, n์˜ ํฌ๊ธฐ๊ฐ€ ์ปค์ง€๋ฉด t๋ถ„ํฌ๋Š” ์ •๊ทœ๋ถ„ํฌ์— ์ˆ˜๋ ด
  • T๋ถ„ํฌ

T-Distribution

T-Test ์˜ ์ข…๋ฅ˜

์ผํ‘œ๋ณธ, One Sample t-test

  • ์•Œ๋ ค์ง„ ๊ฐ’์— ๋Œ€ํ•œ ํ‘œ๋ณธ์˜ ํ‰๊ท ์„ ๋น„๊ต
  • ์˜ˆ์‹œ 1 - ์•„์ดํฐ ์‚ฌ์šฉ์ž 100๋ช…์˜ ๋งŒ์กฑ๋„ ํ‰๊ท ๊ณผ ๊ธฐ์ค€์œผ๋กœ ์ œ์‹œํ•œ 5๋ฅผ ๋น„๊ตํ•˜๋Š” ๊ฒฝ์šฐ
  • ์˜ˆ์‹œ 2 - ๊ฒฝ์˜๋Œ€ ๋งŒ์กฑ๋„๊ฐ€ 3๋ณด๋‹ค ๋†’์€์ง€ ์•„๋‹Œ์ง€?

์ดํ‘œ๋ณธ, Two-sample t-test

  • ์ฃผ์–ด์ง„ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋‘ ๊ทธ๋ฃน์˜ ํ‰๊ท  ์ ์ˆ˜๋ฅผ ๋น„๊ต
  • ์˜ˆ์‹œ 1 - ์•„์ดํฐ ์‚ฌ์šฉ์ž์ค‘ ์—ฌ์„ฑ 100๋ช…๊ณผ ๋‚จ์„ฑ 100๋ช…์˜ ๋งŒ์กฑ๋„๋ฅผ ๋น„๊ต
  • ์˜ˆ์‹œ 2 - ์ฃผ์ „๊ณต vs. ๋ณต์ˆ˜์ „๊ณต๊ฐ„ ๊ฒฝ์˜๋Œ€ ๋งŒ์กฑ๋„ ๋น„๊ต

๋Œ€์‘ํ‘œ๋ณธ, Paired t-test

  • ๋‘ ๋ณ€์ˆ˜์˜ ํ‰๊ท ์„ ๋น„๊ต. ๊ฐ ๊ฒฝ์šฐ์— ๋Œ€ํ•ด ๋‘ ๋ณ€์ˆ˜์˜ ์ฐจ์ด๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ  ํ‰๊ท  ์ฐจ์ด๊ฐ€ 0๊ณผ ์œ ์˜ํ•˜๊ฒŒ ๋‹ค๋ฅธ์ง€ ๊ฒ€์ •.
  • ์ •ํ™•ํ•œ ํ‘œ๋ณธ์œผ๋กœ ํ†ต์ œ๋œ ํ™˜๊ฒฝ์—์„œ ์ธก์ •๋˜์–ด์•ผ ํ•จ.
  • ์˜ˆ์‹œ 1 - A๋ผ๋Š” ์‚ฌ์šฉ์ž๊ฐ€ ์•„์ดํฐ 14pro์™€ ์•„์ดํฐ 14๋ฅผ ์‚ฌ์šฉํ•ด๋ณด๊ณ  ๋งŒ์กฑ๋„๋ฅผ ํ‰๊ฐ€, ๋น„๊ต
  • ์˜ˆ์‹œ 2 - ํ•™๊ต ์ „์ฒด vs. ๊ฒฝ์˜๋Œ€ ๋งŒ์กฑ๋„ ๋น„๊ต