240529 Today I Learn์๋ฃํ๊ณผ ํต๊ณ๋ชจํ์๋ฃํ์ง์ Qualitative ์๋ฃ: ์์น ์ฐ์ฐ์ด ๋ถ๊ฐํ ์๋ฃ์
๋๋ค. ๋ฒ์ฃผํCategorical์ด๋ผ๊ณ ๋ ํฉ๋๋ค.๋ช
๋ชฉํNominal: ์ด๋ฆ, ์ฑ๋ณ๊ณผ ๊ฐ์ด ์๊ณ๋ ์์๊ฐ ์๋ ์๋ฃ์
๋๋ค.์์ํOrdinal: ํ๋
๋ณ์ ๊ณผ ๊ฐ์ด ์์๊ฐ ์์ง๋ง ์ฌ์น์ฐ์ฐ์ด ์ ์ฉ๋๊ธฐ ์ด๋ ค์ด ์๋ฃ์
๋๋ค.์์ Quantitative ์๋ฃ: ์์น ์ฐ์ฐ์ด ๊ฐ๋ฅํ ์๋ฃ์
๋๋ค.์ฐ์ํContinuous: ๊ธธ์ด๋ ๋ฌด๊ฒ์ฒ๋ผ, ๋ถ์ ๋์ง ์๊ณ ์ฐ์์ ์ธ ์์นํ ์๋ฃ์
๋๋ค.์ด์ฐํDiscrete: ๊ฐ์์ ๊ฐ์ด ์ฐ์์ ์ด์ง ์์ ์์นํ ์๋ฃ์
๋๋ค.๋
๋ฆฝ ๋ณ์์ ์ข
์ ๋ณ์์ข
์ ๋ณ์Dependent variable์ฐ๋ฆฌ๊ฐ ์์ธก ํน์ ์ค๋ช
ํ๊ณ ์ ํ๋ ๋ณ์์
๋๋ค.๋ฐ์ ๋ณ์, ํ์ ๋ณ์, ์์ธก ๋ณ์ ๋ฑ์ด๋ผ๊ณ ๋ ํฉ๋๋ค.๋
๋ฆฝ ..
๐ Data Analysis
240528 Today I Learnํต๊ณ์ ๊ฐ์ค๊ฒ์ ์ด๋?๐ก ํต๊ณ์ ๊ฐ์ค๊ฒ์ ์ด๋?์ฃผ์ด์ง ์๋ฃ๊ฐ ํน์ ๊ฐ์ค์ ์ถฉ๋ถํ ๋ท๋ฐ์นจํ๋์ง ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ๋ ํต๊ณ์ ์ถ๋ก ๋ฐฉ๋ฒ๋ชจ์์ ๋ํ ์์, ์ฃผ์ฅ ๋ฑ์ ์ณ๊ณ ๊ทธ๋ฆ์ ํ๋ณธ์ผ๋ก๋ถํฐ ์ฃผ์ด์ง๋ ์ ๋ณด๋ฅผ ์ด์ฉํด ํ๋จํ๋ ์ฌํ์ ๋ถ์๊ณผ์ ์ผ๋ก, ์๋ฐ๋ ๋๊ฐ์ง ๊ฐ์ค ์ค ํ๊ฐ์ง๋ฅผ ์์ง๋ ์๋ฃ์ ๊ทผ๊ฑฐํด ์ ํํ๋ ๋ถ์๊ณผ์ (2020 ํํต ๊ฐ์)ํต๊ณ์ ๊ฐ์ค๊ฒ์ ์ 4๋จ๊ณ๊ท๋ฌด๊ฐ์ค๊ณผ ๋๋ฆฝ ๊ฐ์ค ์ค์ ํ๊ธฐ๊ฐ์ค๊ฒ์ ์ ์ํ ํ๋ณธํต๊ณ๋ ์ ํํ๊ธฐ๊ธฐ๊ฐ์ญ ์ค์ ํ๊ธฐํต๊ณ์ ๊ฒฐ๋ก ๋ด๋ฆฌ๊ธฐ → ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐ ์ฌ๋ถ, ๊ฒฐ๋ก ์ ๋ง๋ก ๊ธฐ์ ํ๋ค.๊ฐ์ค ๊ฒ์ ํ๊ธฐ๊ท๋ฌด๊ฐ์ค๊ณผ ๋๋ฆฝ๊ฐ์ค๊ท๋ฌด๊ฐ์ค, Null Hypothesis (H0)์ง๊ธ๊น์ง ์ณ๋ค๊ณ ๋ฏฟ์ด์จ ์ฃผ์ฅ์ฃผ๋ก ํ์ฌ๊น์ง ์ธ์ ๋๊ณ ์๋ ์ฌ์ค ๋๋ ๊ฐ๋จํ๊ณ ๊ตฌ์ฒด์ ์ธ ์ฌ์ค์ ์ง์ ์์ - ..
240527 Today I Learnํ๊ท ์ด๋?ํ๊ท ์ด๋?a single number or value that best represents a set of data๋ฐ์ดํฐ ์งํฉ์ ๊ฐ์ฅ ์ ๋ํ๋ด๋ ๋จ์ผ ์ซ์ ๋๋ ๊ฐ์ ์ด์ผ๊ธฐํ๋ค.์๋์ ์ด์์น๐ก ์๋, Skewness์๋๋ ํน์ ํ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ดํฐ๊ฐ ์ ๋ ค์๋ ๊ฒ์ผ๋ก, ์๋๊ฐ ์์ผ๋ฉด ํ๊ท ์ด ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ํํ์ง ๋ชปํ๋ค.๋ณดํต ๊ทธ๋ํ๋ก ํ์ธํ๋ฉฐ ๊ผฌ๋ฆฌ(tail, ๊ธธ๊ฒ ๋์ด์ง ๋ถ๋ถ)์ ๋ฐฉํฅ์ ๋ฐ๋ผ left skewed/ right skewed๋ก ๊ตฌ๋ถํ๋ค. ์ผ๊ผฌ๋ฆฌ ๋ถํฌ, Left Skewedํ๊ท ๋ถํฌ๊ฐ ์ผ์ชฝ์ผ๋ก ๋ชฐ๋ ค์๊ณ ์ค๋ฅธ์ชฝ์ผ๋ก ๊ธด ๊ผฌ๋ฆฌ๊ฐ ๋์ด์ง ํํ์ค๋ฅธ ๋ถํฌ, Right Skewedํ๊ท > ์ค์๊ฐ๋ถํฌ๊ฐ ์ค๋ฅธ์ชฝ์ผ๋ก ๋ชฐ๋ ค์๊ณ ์ผ์ชฝ์ผ๋ก ๊ธด ๊ผฌ๋ฆฌ๊ฐ ๋์ด์ง ํํ๐ก ์ด์์น,..
๊ธฐ์ด ํ๋ก์ ํธ : ์ํ ๊ณ ๊ฐ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ์๋น์ค ๋ถ์ ๊ธฐ์ด ํ๋ก์ ํธ : ์ํ ๊ณ ๊ฐ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ์๋น์ค ๋ถ์(5)๊ธฐ์ด ํ๋ก์ ํธ : ์ํ ๊ณ ๊ฐ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ์๋น์ค ๋ถ์๐ ์๊ฐํ - ์๋์ด ๋์ ๊ณ ๊ฐ(VIP)๊ณ ๊ฐ์ ์ก์๋ผ!3. VIP ๊ณ ๊ฐ๋ค์ ์์น ํํฉ ํ์
VIP ๊ณ ๊ฐ๋ค์ ํฌ์๋ฅผ ๋ง์ด ํ๋์ง ์๋๋ฉด ์์น๋ฅผ ํ๋archivenyc.tistory.com๐๏ธ ์ต์ข
๋ฐํ ์๋ฃ ๊ธฐ์ดํ๋ก์ ํธ๋์์ธ ์ ๋ฌธ๊ฐ๊ฐ ์๋์ด๋ ๋ฌด๋ฃ ํ
ํ๋ฆฟ์ผ๋ก ์์ฝ๊ฒ ์ํ๋ ๋์์ธ์ ํ ์ ์์ด์.www.miricanvas.com ๐ ๋ฐํ ํ ๋ฐ์ ํผ๋๋ฐฑ16%์ ๋ฐ์ดํฐ ์์ค์ด ๋ฐ์ํ๋ค๋ ๊ฒ์ ์กฐ๊ธ ํฌ๋ค๊ณ ์๊ฐ, EDA ๊ณผ์ ์์ ๋ฏธ์ํจ์ด ์์๋ค. ํ์ง๋ง ๊ฐ๊ฐ ์ปฌ๋ผ์ ๋ํด ๋ง์ด ์ดํดํ๋ ค๊ณ ๋
ธ๋ ฅํ๊ฒ ๊ฐ์๋ณด์์๊ฐ์ฅ ๋ง์ ๋ค์๋ ๋ถ๋ถ์ 30,50..
๊ธฐ์ด ํ๋ก์ ํธ : ์ํ ๊ณ ๊ฐ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ์๋น์ค ๋ถ์๐ ์๊ฐํ - ์๋์ด ๋์ ๊ณ ๊ฐ(VIP)๊ณ ๊ฐ์ ์ก์๋ผ!3. VIP ๊ณ ๊ฐ๋ค์ ์์น ํํฉ ํ์
VIP ๊ณ ๊ฐ๋ค์ ํฌ์๋ฅผ ๋ง์ด ํ๋์ง ์๋๋ฉด ์์น๋ฅผ ํ๋ ํธ์ธ์ง ์์๋ณด์.โ
VIP ๊ณ ๊ฐ๋ค์ ์๋์ด ๋ง์ผ๋ฉด ํฌ์๋ฅผ ๋ง์ด ํ๋๊ฐ?# ์ฌ์ด์ฆ ์ง์ plt.figure(figsize=(16,9))# ์ฐ์ ๋ ๊ทธ๋ฆฌ๊ธฐsns.scatterplot(data = stat, x='Monthly_Income', y='Amount_invested_monthly', hue = 'age_group', palette = green_palette2, alpha= 0.5)# ์ ๋ชฉ ๋ถ์ด๊ธฐplt.title('Regression Analysis of Monthly Income - Amount of M..
๊ธฐ์ด ํ๋ก์ ํธ : ์ํ ๊ณ ๊ฐ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ์๋น์ค ๋ถ์๐๏ธ ๋ฐ์ดํฐ ์ ๊ทํ & ํ์คํAge_group์ ์์ฑ๊ณ ๊ฐ๋ค์ Age๋ฅผ 10๋, 20๋, 30๋ ๋ฑ์ ๋ฒ์ฃผ๋ก ๊ทธ๋ฃนํํด ‘age_group’ ์ปฌ๋ผ์ ์ถ๊ฐ์ ์ผ๋ก ์์ฑํ๋ค.bank_numeric['age_group']= [int(i//10)*10 for i in bank_numeric['Age']] Loan Type์ ๋ถ๋ฆฌํด ๋๋ฏธ ๋ณ์๋ก ๋ง๋ค๊ธฐType_of_Loan ์ปฌ๋ผ์ ๊ฒฝ์ฐ Loan์ ์ข
๋ฅ๋ณ๋ก ๊ตฌ๋ถ๋ ๊ฒ์ด ์๋๋ผ ์ปด๋ง๋ฅผ ํตํด ํ๋์ ๊ฐ์ผ๋ก ์ฐ๊ฒฐ๋์ด์๋๋ฐ, ์ด๋ ๊ฒ ๋๋ฉด ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ฒ๋๋ค.โ
๊ณ ๊ฐ๋ง๋ค ์ด๋ค ์ข
๋ฅ์ ๋์ถ์ ๋ฐ์๋์ง ํ์ธํ๊ธฐ ์ด๋ ค์โ
๋์ถ ์ข
๋ฅ๋ ๊ฐ์๋ ์์๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ํ๋์ ์ปฌ๋ผ์ผ๋ก ํฉ์น๊ธฐ ์ด๋ ค์๋ฐ๋ผ์ ๋ฐ์ดํฐ์์ ์กฐ๊ธ๋ ์ฝ..