๐Ÿ“Š Data Analysis

240529 Today I Learn์ž๋ฃŒํ˜•๊ณผ ํ†ต๊ณ„๋ชจํ˜•์ž๋ฃŒํ˜•์งˆ์ Qualitative ์ž๋ฃŒ: ์ˆ˜์น™ ์—ฐ์‚ฐ์ด ๋ถˆ๊ฐ€ํ•œ ์ž๋ฃŒ์ž…๋‹ˆ๋‹ค. ๋ฒ”์ฃผํ˜•Categorical์ด๋ผ๊ณ ๋„ ํ•ฉ๋‹ˆ๋‹ค.๋ช…๋ชฉํ˜•Nominal: ์ด๋ฆ„, ์„ฑ๋ณ„๊ณผ ๊ฐ™์ด ์œ„๊ณ„๋‚˜ ์ˆœ์„œ๊ฐ€ ์—†๋Š” ์ž๋ฃŒ์ž…๋‹ˆ๋‹ค.์ˆœ์„œํ˜•Ordinal: ํ•™๋…„ ๋ณ„์ ๊ณผ ๊ฐ™์ด ์ˆœ์„œ๊ฐ€ ์žˆ์ง€๋งŒ ์‚ฌ์น™์—ฐ์‚ฐ์ด ์ ์šฉ๋˜๊ธฐ ์–ด๋ ค์šด ์ž๋ฃŒ์ž…๋‹ˆ๋‹ค.์–‘์ Quantitative ์ž๋ฃŒ: ์ˆ˜์น™ ์—ฐ์‚ฐ์ด ๊ฐ€๋Šฅํ•œ ์ž๋ฃŒ์ž…๋‹ˆ๋‹ค.์—ฐ์†ํ˜•Continuous: ๊ธธ์ด๋‚˜ ๋ฌด๊ฒŒ์ฒ˜๋Ÿผ, ๋ถ„์ ˆ๋˜์ง€ ์•Š๊ณ  ์—ฐ์†์ ์ธ ์ˆ˜์น˜ํ˜• ์ž๋ฃŒ์ž…๋‹ˆ๋‹ค.์ด์‚ฐํ˜•Discrete: ๊ฐœ์ˆ˜์™€ ๊ฐ™์ด ์—ฐ์†์ ์ด์ง€ ์•Š์€ ์ˆ˜์น˜ํ˜• ์ž๋ฃŒ์ž…๋‹ˆ๋‹ค.๋…๋ฆฝ ๋ณ€์ˆ˜์™€ ์ข…์† ๋ณ€์ˆ˜์ข…์† ๋ณ€์ˆ˜Dependent variable์šฐ๋ฆฌ๊ฐ€ ์˜ˆ์ธก ํ˜น์€ ์„ค๋ช…ํ•˜๊ณ ์ž ํ•˜๋Š” ๋ณ€์ˆ˜์ž…๋‹ˆ๋‹ค.๋ฐ˜์‘ ๋ณ€์ˆ˜, ํ‘œ์  ๋ณ€์ˆ˜, ์˜ˆ์ธก ๋ณ€์ˆ˜ ๋“ฑ์ด๋ผ๊ณ ๋„ ํ•ฉ๋‹ˆ๋‹ค.๋…๋ฆฝ ..
240528 Today I Learnํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ •์ด๋ž€?๐Ÿ’ก ํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ •์ด๋ž€?์ฃผ์–ด์ง„ ์ž๋ฃŒ๊ฐ€ ํŠน์ • ๊ฐ€์„ค์„ ์ถฉ๋ถ„ํžˆ ๋’ท๋ฐ›์นจํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ํ†ต๊ณ„์  ์ถ”๋ก  ๋ฐฉ๋ฒ•๋ชจ์ˆ˜์— ๋Œ€ํ•œ ์˜ˆ์ƒ, ์ฃผ์žฅ ๋“ฑ์˜ ์˜ณ๊ณ  ๊ทธ๋ฆ„์„ ํ‘œ๋ณธ์œผ๋กœ๋ถ€ํ„ฐ ์ฃผ์–ด์ง€๋Š” ์ •๋ณด๋ฅผ ์ด์šฉํ•ด ํŒ๋‹จํ•˜๋Š” ์‚ฌํ›„์  ๋ถ„์„๊ณผ์ •์œผ๋กœ, ์ƒ๋ฐ˜๋œ ๋‘๊ฐ€์ง€ ๊ฐ€์„ค ์ค‘ ํ•œ๊ฐ€์ง€๋ฅผ ์ˆ˜์ง‘๋œ ์ž๋ฃŒ์— ๊ทผ๊ฑฐํ•ด ์„ ํƒํ•˜๋Š” ๋ถ„์„๊ณผ์ • (2020 ํ™•ํ†ต ๊ฐ•์˜)ํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ •์˜ 4๋‹จ๊ณ„๊ท€๋ฌด๊ฐ€์„ค๊ณผ ๋Œ€๋ฆฝ ๊ฐ€์„ค ์„ค์ •ํ•˜๊ธฐ๊ฐ€์„ค๊ฒ€์ •์„ ์œ„ํ•œ ํ‘œ๋ณธํ†ต๊ณ„๋Ÿ‰ ์„ ํƒํ•˜๊ธฐ๊ธฐ๊ฐ์—ญ ์„ค์ •ํ•˜๊ธฐํ†ต๊ณ„์  ๊ฒฐ๋ก  ๋‚ด๋ฆฌ๊ธฐ → ๊ท€๋ฌด๊ฐ€์„ค์˜ ๊ธฐ๊ฐ ์—ฌ๋ถ€, ๊ฒฐ๋ก ์€ ๋ง๋กœ ๊ธฐ์ˆ ํ•œ๋‹ค.๊ฐ€์„ค ๊ฒ€์ • ํ•˜๊ธฐ๊ท€๋ฌด๊ฐ€์„ค๊ณผ ๋Œ€๋ฆฝ๊ฐ€์„ค๊ท€๋ฌด๊ฐ€์„ค, Null Hypothesis (H0)์ง€๊ธˆ๊นŒ์ง€ ์˜ณ๋‹ค๊ณ  ๋ฏฟ์–ด์˜จ ์ฃผ์žฅ์ฃผ๋กœ ํ˜„์žฌ๊นŒ์ง€ ์ธ์ •๋˜๊ณ  ์žˆ๋Š” ์‚ฌ์‹ค ๋˜๋Š” ๊ฐ„๋‹จํ•˜๊ณ  ๊ตฌ์ฒด์ ์ธ ์‚ฌ์‹ค์„ ์ง€์ •์˜ˆ์‹œ - ..
240527 Today I Learnํ‰๊ท ์ด๋ž€?ํ‰๊ท ์ด๋ž€?a single number or value that best represents a set of data๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์„ ๊ฐ€์žฅ ์ž˜ ๋‚˜ํƒ€๋‚ด๋Š” ๋‹จ์ผ ์ˆซ์ž ๋˜๋Š” ๊ฐ’์„ ์ด์•ผ๊ธฐํ•œ๋‹ค.์™œ๋„์™€ ์ด์ƒ์น˜๐Ÿ’ก ์™œ๋„, Skewness์™œ๋„๋Š” ํŠน์ •ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ์ ๋ ค์žˆ๋Š” ๊ฒƒ์œผ๋กœ, ์™œ๋„๊ฐ€ ์žˆ์œผ๋ฉด ํ‰๊ท ์ด ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๋Œ€ํ‘œํ•˜์ง€ ๋ชปํ•œ๋‹ค.๋ณดํ†ต ๊ทธ๋ž˜ํ”„๋กœ ํ™•์ธํ•˜๋ฉฐ ๊ผฌ๋ฆฌ(tail, ๊ธธ๊ฒŒ ๋Š˜์–ด์ง„ ๋ถ€๋ถ„)์˜ ๋ฐฉํ–ฅ์— ๋”ฐ๋ผ left skewed/ right skewed๋กœ ๊ตฌ๋ถ„ํ•œ๋‹ค. ์™ผ๊ผฌ๋ฆฌ ๋ถ„ํฌ, Left Skewedํ‰๊ท  ๋ถ„ํฌ๊ฐ€ ์™ผ์ชฝ์œผ๋กœ ๋ชฐ๋ ค์žˆ๊ณ  ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ธด ๊ผฌ๋ฆฌ๊ฐ€ ๋Š˜์–ด์ง„ ํ˜•ํƒœ์˜ค๋ฅธ ๋ถ„ํฌ, Right Skewedํ‰๊ท  > ์ค‘์•™๊ฐ’๋ถ„ํฌ๊ฐ€ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๋ชฐ๋ ค์žˆ๊ณ  ์™ผ์ชฝ์œผ๋กœ ๊ธด ๊ผฌ๋ฆฌ๊ฐ€ ๋Š˜์–ด์ง„ ํ˜•ํƒœ๐Ÿ’ก ์ด์ƒ์น˜,..
๊ธฐ์ดˆ ํ”„๋กœ์ ํŠธ : ์€ํ–‰ ๊ณ ๊ฐ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ์„œ๋น„์Šค ๋ถ„์„  ๊ธฐ์ดˆ ํ”„๋กœ์ ํŠธ : ์€ํ–‰ ๊ณ ๊ฐ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ์„œ๋น„์Šค ๋ถ„์„(5)๊ธฐ์ดˆ ํ”„๋กœ์ ํŠธ : ์€ํ–‰ ๊ณ ๊ฐ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ์„œ๋น„์Šค ๋ถ„์„๐Ÿ“Š ์‹œ๊ฐํ™” - ์†Œ๋“์ด ๋†’์€ ๊ณ ๊ฐ(VIP)๊ณ ๊ฐ์„ ์žก์•„๋ผ!3. VIP ๊ณ ๊ฐ๋“ค์˜ ์˜ˆ์น˜ ํ˜„ํ™ฉ ํŒŒ์•…VIP ๊ณ ๊ฐ๋“ค์€ ํˆฌ์ž๋ฅผ ๋งŽ์ด ํ•˜๋Š”์ง€ ์•„๋‹ˆ๋ฉด ์˜ˆ์น˜๋ฅผ ํ•˜๋Š”archivenyc.tistory.com๐ŸŽ™๏ธ ์ตœ์ข… ๋ฐœํ‘œ ์ž๋ฃŒ ๊ธฐ์ดˆํ”„๋กœ์ ํŠธ๋””์ž์ธ ์ „๋ฌธ๊ฐ€๊ฐ€ ์•„๋‹ˆ์–ด๋„ ๋ฌด๋ฃŒ ํ…œํ”Œ๋ฆฟ์œผ๋กœ ์†์‰ฝ๊ฒŒ ์›ํ•˜๋Š” ๋””์ž์ธ์„ ํ•  ์ˆ˜ ์žˆ์–ด์š”.www.miricanvas.com ๐Ÿ’– ๋ฐœํ‘œ ํ›„ ๋ฐ›์€ ํ”ผ๋“œ๋ฐฑ16%์˜ ๋ฐ์ดํ„ฐ ์†์‹ค์ด ๋ฐœ์ƒํ–ˆ๋‹ค๋Š” ๊ฒƒ์€ ์กฐ๊ธˆ ํฌ๋‹ค๊ณ  ์ƒ๊ฐ, EDA ๊ณผ์ •์—์„œ ๋ฏธ์ˆ™ํ•จ์ด ์žˆ์—ˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ฐ๊ฐ ์ปฌ๋Ÿผ์— ๋Œ€ํ•ด ๋งŽ์ด ์ดํ•ดํ•˜๋ ค๊ณ  ๋…ธ๋ ฅํ•œ๊ฒƒ ๊ฐ™์•„๋ณด์˜€์Œ๊ฐ€์žฅ ๋ง˜์— ๋“ค์—ˆ๋˜ ๋ถ€๋ถ„์€ 30,50..
๊ธฐ์ดˆ ํ”„๋กœ์ ํŠธ : ์€ํ–‰ ๊ณ ๊ฐ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ์„œ๋น„์Šค ๋ถ„์„๐Ÿ“Š ์‹œ๊ฐํ™” - ์†Œ๋“์ด ๋†’์€ ๊ณ ๊ฐ(VIP)๊ณ ๊ฐ์„ ์žก์•„๋ผ!3. VIP ๊ณ ๊ฐ๋“ค์˜ ์˜ˆ์น˜ ํ˜„ํ™ฉ ํŒŒ์•…VIP ๊ณ ๊ฐ๋“ค์€ ํˆฌ์ž๋ฅผ ๋งŽ์ด ํ•˜๋Š”์ง€ ์•„๋‹ˆ๋ฉด ์˜ˆ์น˜๋ฅผ ํ•˜๋Š” ํŽธ์ธ์ง€ ์•Œ์•„๋ณด์ž.โœ… VIP ๊ณ ๊ฐ๋“ค์€ ์†Œ๋“์ด ๋งŽ์œผ๋ฉด ํˆฌ์ž๋ฅผ ๋งŽ์ด ํ•˜๋Š”๊ฐ€?# ์‚ฌ์ด์ฆˆ ์ง€์ •plt.figure(figsize=(16,9))# ์‚ฐ์ ๋„ ๊ทธ๋ฆฌ๊ธฐsns.scatterplot(data = stat, x='Monthly_Income', y='Amount_invested_monthly', hue = 'age_group', palette = green_palette2, alpha= 0.5)# ์ œ๋ชฉ ๋ถ™์ด๊ธฐplt.title('Regression Analysis of Monthly Income - Amount of M..
๊ธฐ์ดˆ ํ”„๋กœ์ ํŠธ : ์€ํ–‰ ๊ณ ๊ฐ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ์„œ๋น„์Šค ๋ถ„์„๐Ÿ—‚๏ธ ๋ฐ์ดํ„ฐ ์ •๊ทœํ™” & ํ‘œ์ค€ํ™”Age_group์„ ์ƒ์„ฑ๊ณ ๊ฐ๋“ค์˜ Age๋ฅผ 10๋Œ€, 20๋Œ€, 30๋Œ€ ๋“ฑ์˜ ๋ฒ”์ฃผ๋กœ ๊ทธ๋ฃนํ™”ํ•ด ‘age_group’ ์ปฌ๋Ÿผ์„ ์ถ”๊ฐ€์ ์œผ๋กœ ์ƒ์„ฑํ–ˆ๋‹ค.bank_numeric['age_group']= [int(i//10)*10 for i in bank_numeric['Age']] Loan Type์„ ๋ถ„๋ฆฌํ•ด ๋”๋ฏธ ๋ณ€์ˆ˜๋กœ ๋งŒ๋“ค๊ธฐType_of_Loan ์ปฌ๋Ÿผ์˜ ๊ฒฝ์šฐ Loan์˜ ์ข…๋ฅ˜๋ณ„๋กœ ๊ตฌ๋ถ„๋œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ปด๋งˆ๋ฅผ ํ†ตํ•ด ํ•˜๋‚˜์˜ ๊ฐ’์œผ๋กœ ์—ฐ๊ฒฐ๋˜์–ด์žˆ๋Š”๋ฐ, ์ด๋ ‡๊ฒŒ ๋˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜๊ฒŒ๋œ๋‹ค.โœ… ๊ณ ๊ฐ๋งˆ๋‹ค ์–ด๋–ค ์ข…๋ฅ˜์˜ ๋Œ€์ถœ์„ ๋ฐ›์•˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์–ด๋ ค์›€โœ… ๋Œ€์ถœ ์ข…๋ฅ˜๋Š” ๊ฐ™์•„๋„ ์ˆœ์„œ๊ฐ€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ํ•˜๋‚˜์˜ ์ปฌ๋Ÿผ์œผ๋กœ ํ•ฉ์น˜๊ธฐ ์–ด๋ ค์›€๋”ฐ๋ผ์„œ ๋ฐ์ดํ„ฐ์—์„œ ์กฐ๊ธˆ๋” ์‰ฝ..
ny:D
'๐Ÿ“Š Data Analysis' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก (3 Page)