ํ†ต๊ณ„ํ•™ ๊ธฐ์ดˆ (1) ํ‰๊ท ์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

2024. 5. 27. 21:46ยท ๐Ÿ“Š Data Analysis/๐Ÿ—‚๏ธ Note
๋ชฉ์ฐจ
  1. 240527 Today I Learn
  2. ํ‰๊ท ์ด๋ž€?
  3. ์™œ๋„์™€ ์ด์ƒ์น˜
  4. ๋‹ค์–‘ํ•œ ํ‰๊ท 

240527 Today I Learn

ํ‰๊ท ์ด๋ž€?

ํ‰๊ท ์ด๋ž€?
a single number or value that best represents a set of data
๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์„ ๊ฐ€์žฅ ์ž˜ ๋‚˜ํƒ€๋‚ด๋Š” ๋‹จ์ผ ์ˆซ์ž ๋˜๋Š” ๊ฐ’์„ ์ด์•ผ๊ธฐํ•œ๋‹ค.

์™œ๋„์™€ ์ด์ƒ์น˜

๐Ÿ’ก ์™œ๋„, Skewness
์™œ๋„๋Š” ํŠน์ •ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ์ ๋ ค์žˆ๋Š” ๊ฒƒ์œผ๋กœ, ์™œ๋„๊ฐ€ ์žˆ์œผ๋ฉด ํ‰๊ท ์ด ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๋Œ€ํ‘œํ•˜์ง€ ๋ชปํ•œ๋‹ค.
๋ณดํ†ต ๊ทธ๋ž˜ํ”„๋กœ ํ™•์ธํ•˜๋ฉฐ ๊ผฌ๋ฆฌ(tail, ๊ธธ๊ฒŒ ๋Š˜์–ด์ง„ ๋ถ€๋ถ„)์˜ ๋ฐฉํ–ฅ์— ๋”ฐ๋ผ left skewed/ right skewed๋กœ ๊ตฌ๋ถ„ํ•œ๋‹ค.

 

  • ์™ผ๊ผฌ๋ฆฌ ๋ถ„ํฌ, Left Skewed
    • ํ‰๊ท  < ์ค‘์•™๊ฐ’
    • ๋ถ„ํฌ๊ฐ€ ์™ผ์ชฝ์œผ๋กœ ๋ชฐ๋ ค์žˆ๊ณ  ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ธด ๊ผฌ๋ฆฌ๊ฐ€ ๋Š˜์–ด์ง„ ํ˜•ํƒœ
  • ์˜ค๋ฅธ ๋ถ„ํฌ, Right Skewed
    • ํ‰๊ท  > ์ค‘์•™๊ฐ’
    • ๋ถ„ํฌ๊ฐ€ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๋ชฐ๋ ค์žˆ๊ณ  ์™ผ์ชฝ์œผ๋กœ ๊ธด ๊ผฌ๋ฆฌ๊ฐ€ ๋Š˜์–ด์ง„ ํ˜•ํƒœ
๐Ÿ’ก ์ด์ƒ์น˜,Outlier
๋‹ค๋ฅธ ๊ด€์ธก์น˜์™€ ์œ ์˜ํ•˜๊ฒŒ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ
* ์œ ์˜ํ•˜๋‹ค๋Š” ๊ฒƒ์˜ ์˜๋ฏธ๋Š” ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด์ƒ์น˜์˜ ๋ถ„๋ฅ˜๋Š” ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ํฌ๊ฒŒ ๋‹ฌ๋ผ์ง„๋‹ค.
  • IQR ๊ธฐ์ค€ ์ด์ƒ์น˜

boxplot์—์„œ IQR ๊ธฐ์ค€ ์ด์ƒ์น˜ ํŒ๋ณ„

  • IQR = Q3(0.75 quantile) - Q1(0.5 quantile)
  • IQR ๊ธฐ์ค€ ์ด์ƒ์น˜๋Š” Q3+1.5*IQR ๋ณด๋‹ค ํฌ๊ฑฐ๋‚˜, Q1-1.5*IQR๋ณด๋‹ค ์ž‘์€ ๊ฒฝ์šฐ๋ฅผ ์ด์•ผ๊ธฐํ•œ๋‹ค.
  • ์ด์ƒ์น˜์˜ ์ •์˜์™€ ํŒ๋ณ„์€ ์–ด๋ ค์šด ๋ฌธ์ œ์ด๊ธฐ ๋•Œ๋ฌธ์— ๋‹จ์ˆœํ•˜๊ฒŒ ์ ‘๊ทผํ•˜๋ฉด ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธฐ๊ธฐ ์‰ฌ์›€
  • ์†Œ์ˆ˜์˜ ์ด์ƒ์น˜๋Š” ํ‰๊ท ์— ํฐ ์˜ํ–ฅ์„ ์ฃผ๊ธฐ ๋•Œ๋ฌธ์— ํ‰๊ท ์„ ๊ตฌํ•  ๋•Œ ์ œ๊ฑฐ ๋˜๋Š” ๋ณ€ํ™˜ ํ•˜๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ 

๋‹ค์–‘ํ•œ ํ‰๊ท 

๋Œ€ํ‘ฏ๊ฐ’ 3M

1. ์‚ฐ์ˆ ํ‰๊ท 

๐Ÿ’ก ์‚ฐ์ˆ ํ‰๊ท 
๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ๋”ํ•œ ๋’ค ์ „์ฒด ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๋กœ ๋‚˜๋ˆ ์ค€ ๊ฒƒ
  • ์™œ๋„์™€ ์ด์ƒ์น˜์— ์ทจ์•ฝํ•จ

2. ์ค‘์•™๊ฐ’

๐Ÿ’ก ์ค‘์•™๊ฐ’
๋ฐ์ดํ„ฐ๋ฅผ ์ค„์„ธ์› ์„ ๋•Œ ๊ฐ€์šด๋ฐ์— ์žˆ๋Š” ๊ด€์ธก์น˜
โ†’ n์ด ํ™€์ˆ˜์ผ ๋•Œ ์ค‘์•™๊ฐ’์€ (n+1)/2๋ฒˆ์งธ์— ์žˆ๋Š” ๊ฐ’์ด๊ณ , ์ง์ˆ˜์ผ ๋•Œ์—๋Š” ((n/2๋ฒˆ์งธ ๊ฐ’)+(n/2+1๋ฒˆ์งธ ๊ฐ’))/2 ๋ฅผ ์ค‘์•™๊ฐ’์œผ๋กœ ํ•œ๋‹ค.
  • ์™œ๋„์™€ ์ด์ƒ์น˜์— ๊ฐ•์ธrobustํ•˜์—ฌ ํ‰๊ท ์˜ ๋Œ€์•ˆ์œผ๋กœ ๋งŽ์ด ํ™œ์šฉํ•œ๋‹ค.

3. ์ตœ๋นˆ๊ฐ’

๐Ÿ’ก ์ตœ๋นˆ๊ฐ’
๊ฐ€์žฅ ๋นˆ๋ฒˆํ•˜๊ฒŒ ๋“ฑ์žฅํ•˜๋Š” ๊ด€์ธก์น˜๋กœ, ๋“ฑ์žฅํ•˜๋Š” ๊ด€์ธก์น˜์˜ ๊ฐ’์ด ๋‹ค์–‘ํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ ํšจ๊ณผ์ ์œผ๋กœ ์“ฐ์ž„
  • ์ˆ˜๋ฆฌ์  ํ‰๊ท ์˜ ์˜๋ฏธ๋กœ๋Š” ๋ฐ”๋žŒ์ง ํ•˜์ง€ ์•Š๋‹ค.
  • ๊ทธ๋Ÿฌ๋‚˜ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ์—์„œ๋Š” ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Œ.

๊ธฐํƒ€ ํ‰๊ท 

1. ๊ธฐํ•˜ํ‰๊ท 

๐Ÿ’ก๊ธฐํ•˜ํ‰๊ท 
๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ๊ณฑํ•œ ๋’ค ์ „์ฒด ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๋กœ ์ œ๊ณฑ๊ทผ์„ ์ทจํ•ด์ค€ ๊ฒƒ
  • MLE์— ์‚ฌ์šฉ๋จ

2. ์กฐํ™”ํ‰๊ท 

๐Ÿ’ก ์กฐํ™”ํ‰๊ท 
์—ญ์ˆ˜์˜ ์‚ฐ์ˆ ํ‰๊ท ์˜ ์—ญ์ˆ˜๋กœ ํ‰๊ท ์  ๋ณ€ํ™”์œจ์„ ๊ตฌํ•  ๋•Œ ์ฃผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.
  • F1-Score, ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ์ด๋™ํ‰๊ท ์„ ๊ตฌํ•  ๋•Œ ์‚ฌ์šฉ

3. ๋กœ๊ทธํ‰๊ท 

๐Ÿ’ก ๋กœ๊ทธํ‰๊ท 
๊ฐ ๊ด€์ธก์น˜๋ฅผ ๋กœ๊ทธ ๋ณ€ํ™˜ํ•œ ๋’ค ์‚ฐ์ˆ  ํ‰๊ท ์„ ์ง‘๊ณ„
* ๋กœ๊ทธ์˜ ๋ฐ‘์œผ๋กœ๋Š” ์˜ค์ผ๋Ÿฌ ์ƒ์ˆ˜ e=2.781828...์„ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.
  • ์ค‘์•™๊ฐ’๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ์ด์ƒ์น˜์™€ ์™œ๋„์— ๊ฐ•๊ฑด
  • ๋กœ๊ทธ ๋ณ€ํ™˜์œผ๋กœ ์ธํ•ด ๊ฒฐ๊ณผ๊ฐ’์— ๋Œ€ํ•œ ์ง์ ‘์ ์ธ ํ•ด์„์ด ์–ด๋ ค์›Œ, ์ƒ๋Œ€์ ์ธ ๋น„๊ต์— ์œ ์šฉ

4. ์ ˆ์‚ญํ‰๊ท 

๐Ÿ’ก ์ ˆ์‚ญํ‰๊ท 
ํŽธ์ฐจ๊ฐ€ ํฐ ์ž๋ฃŒ์˜ ๊ฒฝ์šฐ, ์ž๋ฃŒ์˜ ์ด ๊ฐœ์ˆ˜์—์„œ ์ผ์ •๋น„์œจ๋งŒํผ ๊ฐ€์žฅ ํฐ ๋ถ€๋ถ„๊ณผ ์ž‘์€ ๋ถ€๋ถ„์„ ์ œ๊ฑฐ ํ›„ ํ‰๊ท ์„ ์‚ฐ์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•
์ƒ/ํ•˜์œ„ ๋ฐ์ดํ„ฐ๋ฅผ ์ผ๋ถ€(k%) ์ œ๊ฑฐํ•œ ๋’ค ์‚ฐ์ˆ ํ‰๊ท ์„ ๊ตฌํ•œ๋‹ค.
  • ๊ทน๋‹จ์ ์ธ ๊ฐ’๋“ค์„ ์ œ๊ฑฐํ•ด ์ด์ƒ์น˜์— ๊ฐ•๊ฑด, ๊ทธ๋Ÿฌ๋‚˜ ์™œ๋„์—๋Š” ์ทจ์•ฝํ•  ์ˆ˜ ์žˆ์Œ
  • ๋ณ€ํ™˜์ด ์—†๊ธฐ ๋•Œ๋ฌธ์— ๊ฒฐ๊ณผ๊ฐ’์— ๋Œ€ํ•œ ์ง์ ‘์  ํ•ด์„์ด ๊ฐ€๋Šฅ

'๐Ÿ“Š Data Analysis > ๐Ÿ—‚๏ธ Note' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ• ํŠน๊ฐ• #2 ํฌ๋กค๋ง  (0) 2024.08.27
๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ• ํŠน๊ฐ• #1 API  (0) 2024.07.16
ํ†ต๊ณ„ํ•™ ๊ธฐ์ดˆ (3) ANOVA, ์„ ํ˜•ํšŒ๊ท€๋ถ„์„  (0) 2024.05.29
ํ†ต๊ณ„ํ•™ ๊ธฐ์ดˆ (2) ํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ •  (0) 2024.05.28
๋ฐ์ดํ„ฐ ๋ฆฌํ„ฐ๋Ÿฌ์‹œ  (0) 2024.05.07
  1. 240527 Today I Learn
  2. ํ‰๊ท ์ด๋ž€?
  3. ์™œ๋„์™€ ์ด์ƒ์น˜
  4. ๋‹ค์–‘ํ•œ ํ‰๊ท 
'๐Ÿ“Š Data Analysis/๐Ÿ—‚๏ธ Note' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
  • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ• ํŠน๊ฐ• #1 API
  • ํ†ต๊ณ„ํ•™ ๊ธฐ์ดˆ (3) ANOVA, ์„ ํ˜•ํšŒ๊ท€๋ถ„์„
  • ํ†ต๊ณ„ํ•™ ๊ธฐ์ดˆ (2) ํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ •
  • ๋ฐ์ดํ„ฐ ๋ฆฌํ„ฐ๋Ÿฌ์‹œ
ny:D
ny:D
n.archiveny:D ๋‹˜์˜ ๋ธ”๋กœ๊ทธ์ž…๋‹ˆ๋‹ค.
ny:D
n.archive
ny:D
์ „์ฒด
์˜ค๋Š˜
์–ด์ œ
  • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (163)
    • ๐Ÿ“Š Data Analysis (27)
      • ๐ŸŽฏ Project (21)
      • ๐Ÿ—‚๏ธ Note (6)
    • ๐Ÿ“’ Today I Learn (72)
      • ๐Ÿ˜Š My SQL (9)
      • ๐Ÿ Python (44)
      • ๐Ÿ“Š Tableau (9)
      • ๐Ÿ‘พ Error (5)
    • โŒจ๏ธ Code Taka (64)
      • MySQL (39)
      • Python (25)

๋ธ”๋กœ๊ทธ ๋ฉ”๋‰ด

  • ํ™ˆ
  • ํƒœ๊ทธ
  • ๋ฐฉ๋ช…๋ก

๊ณต์ง€์‚ฌํ•ญ

์ธ๊ธฐ ๊ธ€

ํƒœ๊ทธ

  • ํฌ๋กค๋ง
  • ํ”„๋กœ๊ทธ๋ž˜๋จธ์Šค
  • ํ”„๋กœ์ ํŠธ
  • BI
  • ์‹œ๊ฐํ™”
  • DBeaver
  • selenium
  • Project
  • ๋ฐ์ดํ„ฐ๋ฆฌํ„ฐ๋Ÿฌ์‹œ
  • ํ”ผ๋ฒ—ํ…Œ์ด๋ธ”
  • ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ
  • Crawling
  • spark
  • python
  • Tableau
  • matplotlib
  • MYSQL
  • seaborn
  • SQL
  • ๋ฐ์ดํ„ฐ์ˆ˜์ง‘
  • p
  • API
  • wil
  • error
  • ํŒŒ์ด์ฌ
  • Eda
  • ์•Œ๊ณ ๋ฆฌ์ฆ˜
  • pandas
  • ML

์ตœ๊ทผ ๋Œ“๊ธ€

์ตœ๊ทผ ๊ธ€

hELLO ยท Designed By ์ •์ƒ์šฐ.v4.3.0
ny:D
ํ†ต๊ณ„ํ•™ ๊ธฐ์ดˆ (1) ํ‰๊ท ์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?
์ƒ๋‹จ์œผ๋กœ

ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”

๋‹จ์ถ•ํ‚ค

๋‚ด ๋ธ”๋กœ๊ทธ

๋‚ด ๋ธ”๋กœ๊ทธ - ๊ด€๋ฆฌ์ž ํ™ˆ ์ „ํ™˜
Q
Q
์ƒˆ ๊ธ€ ์“ฐ๊ธฐ
W
W

๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๊ธ€

๊ธ€ ์ˆ˜์ • (๊ถŒํ•œ ์žˆ๋Š” ๊ฒฝ์šฐ)
E
E
๋Œ“๊ธ€ ์˜์—ญ์œผ๋กœ ์ด๋™
C
C

๋ชจ๋“  ์˜์—ญ

์ด ํŽ˜์ด์ง€์˜ URL ๋ณต์‚ฌ
S
S
๋งจ ์œ„๋กœ ์ด๋™
T
T
ํ‹ฐ์Šคํ† ๋ฆฌ ํ™ˆ ์ด๋™
H
H
๋‹จ์ถ•ํ‚ค ์•ˆ๋‚ด
Shift + /
โ‡ง + /

* ๋‹จ์ถ•ํ‚ค๋Š” ํ•œ๊ธ€/์˜๋ฌธ ๋Œ€์†Œ๋ฌธ์ž๋กœ ์ด์šฉ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ํ‹ฐ์Šคํ† ๋ฆฌ ๊ธฐ๋ณธ ๋„๋ฉ”์ธ์—์„œ๋งŒ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.