๐Ÿ“Š Data Analysis/๐ŸŽฏ Project

์‹ฌํ™”ํ”„๋กœ์ ํŠธ : ํšŒ๊ท€๋ถ„์„์„ ํ™œ์šฉํ•œ ์›”๋งˆํŠธ ์ฃผ๊ฐ„ ํŒ๋งค๋Ÿ‰ ์˜ˆ์ธก๐Ÿค– ๋จธ์‹ ๋Ÿฌ๋‹ : ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •์ด ๋ถ€๋ถ„์€ ์ง์ ‘ ์ง„ํ–‰ํ•˜์ง€ ์•Š์•˜์ง€๋งŒ, ์•ฝ๊ฐ„ ์š”์•ฝํ•ด์„œ ์ ์–ด๋‘๊ฒ ์Œ..!์•ž์˜ ๋ณ€์ˆ˜ ์„ ํƒ ๋‹จ๊ณ„์—์„œ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์ข‹์•˜๋˜ model_rf7๊ณผ model_xgb7 ๋‘๊ฐ€์ง€๋ฅผ ์„ ํƒํ•ด ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •ํ•ด๋ณด์•˜๋‹ค. ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ ๋ฟ ์•„๋‹ˆ๋ผ Xgboost๋„ ํ•จ๊ป˜ ์ง„ํ–‰ํ•œ ์ด์œ ๋Š” ๋” ๋‹ค์–‘ํ•œ ๊ฒฝ์šฐ์˜ ์ˆ˜๋ฅผ ์‚ดํŽด๋ณด๊ธฐ ์œ„ํ•ด์„œ์˜€๋‹ค.rf8๋‹จ๊ณ„์—์„œ ๋žœ๋ค์„œ์น˜ ๊ฒฐ๊ณผ์ธ ์ตœ์ ํ™”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์‚ฌ์šฉ์‹œ ์ „๋ฐ˜์ ์œผ๋กœ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋˜์—ˆ๋‹ค. → ๋”ฐ๋ผ์„œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •ํ•˜์ง€ ์•Š์€ rf7์„ xgboost์˜ best model๊ณผ ๋น„๊ตํ•˜๊ธฐ๋กœ ํ–ˆ๋‹ค.Xgb 8์—์„œ ๊ทธ๋ฆฌ๋“œ ์„œ์น˜ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ˜์˜ํ•ด max_depth & n_estimators๋ฅผ ์กฐ์ •ํ–ˆ๋‹ค. ๊ทธ ์˜ํ–ฅ์œผ๋กœ ๋น„์•ฝ์ ์ธ ์„ฑ๋Šฅ ์ƒ์Šน์ด ..
์‹ฌํ™”ํ”„๋กœ์ ํŠธ : ํšŒ๊ท€๋ถ„์„์„ ํ™œ์šฉํ•œ ์›”๋งˆํŠธ ์ฃผ๊ฐ„ ํŒ๋งค๋Ÿ‰ ์˜ˆ์ธก๐ŸŽฏ ๋ชจ๋ธ๋ง ํ‰๊ฐ€ ์ง€ํ‘œ ์„ค์ •๋ชจ๋ธ๋ง ์ง€ํ‘œ๋กœ ์‚ฌ์šฉํ•œ ๊ฒƒ์€ (1) R-squared, (2) RMSE ๊ทธ๋ฆฌ๊ณ  ๋งˆ์ง€๋ง‰์œผ๋กœ (3) WMAE๋ฅผ ์„ค์ •ํ–ˆ๋‹ค. WMAE๋Š” Kaggle์— ๋‚˜์™€์žˆ๋Š” ํ‰๊ฐ€์ง€ํ‘œ์ธ WMAE๋ฅผ ์ฐธ๊ณ ํ•œ ์ง€ํ‘œ๋กœ, Holiday๋ฅผ ๋”์šฑ ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด ํ•ด๋‹น ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. Holiday ์ฃผ๊ฐ„์ธ ๊ฒฝ์šฐ ๊ฐ€์ค‘์น˜(w)๋ฅผ 5๋กœ, ์•„๋‹Œ ๊ฒฝ์šฐ ๊ฐ€์ค‘์น˜๋ฅผ 1๋กœ ํ•˜์—ฌ ๊ณ„์‚ฐ์„ ์ง„ํ–‰ํ–ˆ๋‹ค. ๐Ÿค– ๋จธ์‹ ๋Ÿฌ๋‹ ์ดˆ๊ธฐ ๋ชจ๋ธ๋ง์•ž์„œ ์„ ํƒ๋œ ๋ณ€์ˆ˜๋“ค์„ ๋ฐ”ํƒ•์œผ๋กœ ์„ ํ˜•ํšŒ๊ท€๋ชจํ˜•(Linear Regressior)๊ณผ ์„ธ๊ฐ€์ง€ ์•™์ƒ๋ธ” ๊ธฐ๋ฒ• (Gradient Boosting Regressor, ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ, Xgboost)์„ ํ™œ์šฉํ•ด ํ”ผํŒ… ๋ฐ ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ–ˆ๋‹ค.๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ ๋ณ€์ˆ˜๋ฅผ ์œ„์™€ ๊ฐ™์ด ์„ ํƒ..
์‹ฌํ™”ํ”„๋กœ์ ํŠธ : ํšŒ๊ท€๋ถ„์„์„ ํ™œ์šฉํ•œ ์›”๋งˆํŠธ ์ฃผ๊ฐ„ ํŒ๋งค๋Ÿ‰ ์˜ˆ์ธก โœ… Weekly Sales์˜ ์Œ์ˆ˜๊ฐ’, ๊ณผ์—ฐ ์ด์ƒ์น˜(์˜ค๊ธฐ์ž…)๋กœ ๋ด์•ผํ•˜๋Š”๊ฐ€?์•„๋‹ˆ๋‹ค. Sales ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ, ํ™˜๋ถˆ์ด๋‚˜ ํŒŒ์† ๋“ฑ์˜ ์‚ฌ์œ ๋กœ ์Œ์ˆ˜๊ฐ’์ด ๋‚˜์˜ฌ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์Œ์ˆ˜๊ฐ’์„ ์ด์ƒ์น˜๋กœ ๋ณผ ์ˆ˜ ์—†๋‹ค. โœ”๏ธ ์ดˆ๊ธฐ ๋ณ€์ˆ˜ ์„ ํƒ1. Markdown 1~5 ์ปฌ๋Ÿผ์„ ์‚ฌ์šฉํ•ด์•ผํ•˜๋Š”๊ฐ€?์•„๋ž˜์˜ ์ด์œ ๋“ค๋กœ Markdown 1~5 ์ปฌ๋Ÿผ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ธฐ๋กœ ํ–ˆ๋‹ค.๊ฒฐ์ธก์น˜์˜ ๋น„์œจ์ด ๋„ˆ๋ฌด ๋†’๋‹ค. → ์ „์ฒด์˜ 64%๊ฐ€ ๊ฒฐ์ธก์น˜์ปฌ๋Ÿผ์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ๋ถ€์กฑํ•˜๋‹ค → ํ•ด๋‹น ํ’ˆ๋ชฉ์— ๋Œ€ํ•œ sales์˜ ํ•ฉ๊ณ„์ธ์ง€ ํ•ด๋‹น ์ผ์ž์— ๋Œ€ํ•œ weekly sales ํ•ฉ๊ณ„์ธ์ง€ ๋ถˆ๋ช…ํ™•ํ•จ.2. Type, Size ๋ณ€์ˆ˜๋ฅผ ๋ชจ๋‘ ์‚ฌ์šฉํ•ด์•ผํ•˜๋Š”๊ฐ€?Type, Size ๋‘ ๋ณ€์ˆ˜๊ฐ„ ํ”ผ์–ด์Šจ ์ƒ๊ด€๊ณ„์ˆ˜๊ฐ€ -0.81๋กœ ๋‹ค์ค‘๊ณต์„ ์„ฑ ๋ฌธ์ œ๊ฐ€ ์ผ์–ด..
์‹ฌํ™”ํ”„๋กœ์ ํŠธ : ํšŒ๊ท€๋ถ„์„์„ ํ™œ์šฉํ•œ ์›”๋งˆํŠธ ์ฃผ๊ฐ„ ํŒ๋งค๋Ÿ‰ ์˜ˆ์ธก์ฃผ์ œ์„ ์ • ์ฃผ์ œ๋ฅผ ๊ณ ๋ฅด๋Š”๋ฐ ์‹œ๊ฐ„์ด ๊ฝค๋‚˜ ์˜ค๋ž˜ ๊ฑธ๋ ธ์ง€๋งŒ, ๊ฒฐ๋ก ์ ์œผ๋กœ๋Š” ๊ฝค๋‚˜ ๋งŒ์กฑํ–ˆ๋˜ ์„ ํƒ. ์ฒ˜์Œ์—๋Š” ๋„ˆ๋ฌด ๊ฐ„๋‹จํ•˜์ง€ ์•Š์„๊นŒ ์‹ถ์—ˆ๋Š”๋ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ง‰์ƒ ๋œฏ์–ด๋ณด๋‹ˆ ์ƒ๊ฐํ–ˆ๋˜ ๊ฒƒ๋ณด๋‹ค ์–ด๋ ค์› ๋‹ค.ํ”„๋กœ์ ํŠธ ๊ฐœ์š”๋ถ„์„ ๋ชฉ์  : Walmart ๋งค์žฅ์˜ ํŒ๋งค ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์ฃผ๊ฐ„ ํŒ๋งค๋Ÿ‰ ์˜ˆ์ธกํ•˜๊ธฐ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ : Kaggle๋ฐ์ดํ„ฐ ์†Œ๊ฐœ Walmart Recruiting - Store Sales Forecasting | Kaggle www.kaggle.com๐Ÿ’ก ์–ด๋ ค์› ๋˜ ์  - Markdwon ์ปฌ๋Ÿผ์ด ์ดํ•ด๊ฐ€ ์ž˜ ๊ฐ€์ง€ ์•Š์•˜์Œ. (์ปฌ๋Ÿผ ์ •๋ณด๊ฐ€ ๋ถ€์กฑ)- Dept, Store ์ด ๋‘ ๊ฐœ์˜ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜๋ฅผ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•ด์•ผํ• ์ง€ ๊ณ ๋ฏผ์ด ๋งŽ์ด ๋˜์—ˆ๋‹ค.- ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๋งŽ์€๋ฐ ์ด๋ฅผ ์–ด๋–ป๊ฒŒ ..
๊ธฐ์ดˆ ํ”„๋กœ์ ํŠธ : ์€ํ–‰ ๊ณ ๊ฐ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ์„œ๋น„์Šค ๋ถ„์„  ๊ธฐ์ดˆ ํ”„๋กœ์ ํŠธ : ์€ํ–‰ ๊ณ ๊ฐ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ์„œ๋น„์Šค ๋ถ„์„(5)๊ธฐ์ดˆ ํ”„๋กœ์ ํŠธ : ์€ํ–‰ ๊ณ ๊ฐ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ์„œ๋น„์Šค ๋ถ„์„๐Ÿ“Š ์‹œ๊ฐํ™” - ์†Œ๋“์ด ๋†’์€ ๊ณ ๊ฐ(VIP)๊ณ ๊ฐ์„ ์žก์•„๋ผ!3. VIP ๊ณ ๊ฐ๋“ค์˜ ์˜ˆ์น˜ ํ˜„ํ™ฉ ํŒŒ์•…VIP ๊ณ ๊ฐ๋“ค์€ ํˆฌ์ž๋ฅผ ๋งŽ์ด ํ•˜๋Š”์ง€ ์•„๋‹ˆ๋ฉด ์˜ˆ์น˜๋ฅผ ํ•˜๋Š”archivenyc.tistory.com๐ŸŽ™๏ธ ์ตœ์ข… ๋ฐœํ‘œ ์ž๋ฃŒ ๊ธฐ์ดˆํ”„๋กœ์ ํŠธ๋””์ž์ธ ์ „๋ฌธ๊ฐ€๊ฐ€ ์•„๋‹ˆ์–ด๋„ ๋ฌด๋ฃŒ ํ…œํ”Œ๋ฆฟ์œผ๋กœ ์†์‰ฝ๊ฒŒ ์›ํ•˜๋Š” ๋””์ž์ธ์„ ํ•  ์ˆ˜ ์žˆ์–ด์š”.www.miricanvas.com ๐Ÿ’– ๋ฐœํ‘œ ํ›„ ๋ฐ›์€ ํ”ผ๋“œ๋ฐฑ16%์˜ ๋ฐ์ดํ„ฐ ์†์‹ค์ด ๋ฐœ์ƒํ–ˆ๋‹ค๋Š” ๊ฒƒ์€ ์กฐ๊ธˆ ํฌ๋‹ค๊ณ  ์ƒ๊ฐ, EDA ๊ณผ์ •์—์„œ ๋ฏธ์ˆ™ํ•จ์ด ์žˆ์—ˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ฐ๊ฐ ์ปฌ๋Ÿผ์— ๋Œ€ํ•ด ๋งŽ์ด ์ดํ•ดํ•˜๋ ค๊ณ  ๋…ธ๋ ฅํ•œ๊ฒƒ ๊ฐ™์•„๋ณด์˜€์Œ๊ฐ€์žฅ ๋ง˜์— ๋“ค์—ˆ๋˜ ๋ถ€๋ถ„์€ 30,50..
๊ธฐ์ดˆ ํ”„๋กœ์ ํŠธ : ์€ํ–‰ ๊ณ ๊ฐ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ์„œ๋น„์Šค ๋ถ„์„๐Ÿ“Š ์‹œ๊ฐํ™” - ์†Œ๋“์ด ๋†’์€ ๊ณ ๊ฐ(VIP)๊ณ ๊ฐ์„ ์žก์•„๋ผ!3. VIP ๊ณ ๊ฐ๋“ค์˜ ์˜ˆ์น˜ ํ˜„ํ™ฉ ํŒŒ์•…VIP ๊ณ ๊ฐ๋“ค์€ ํˆฌ์ž๋ฅผ ๋งŽ์ด ํ•˜๋Š”์ง€ ์•„๋‹ˆ๋ฉด ์˜ˆ์น˜๋ฅผ ํ•˜๋Š” ํŽธ์ธ์ง€ ์•Œ์•„๋ณด์ž.โœ… VIP ๊ณ ๊ฐ๋“ค์€ ์†Œ๋“์ด ๋งŽ์œผ๋ฉด ํˆฌ์ž๋ฅผ ๋งŽ์ด ํ•˜๋Š”๊ฐ€?# ์‚ฌ์ด์ฆˆ ์ง€์ •plt.figure(figsize=(16,9))# ์‚ฐ์ ๋„ ๊ทธ๋ฆฌ๊ธฐsns.scatterplot(data = stat, x='Monthly_Income', y='Amount_invested_monthly', hue = 'age_group', palette = green_palette2, alpha= 0.5)# ์ œ๋ชฉ ๋ถ™์ด๊ธฐplt.title('Regression Analysis of Monthly Income - Amount of M..
ny:D
'๐Ÿ“Š Data Analysis/๐ŸŽฏ Project' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก (2 Page)