์ฌํํ๋ก์ ํธ : ํ๊ท๋ถ์์ ํ์ฉํ ์๋งํธ ์ฃผ๊ฐ ํ๋งค๋ ์์ธก๐ค ๋จธ์ ๋ฌ๋ : ํ์ดํผํ๋ผ๋ฏธํฐ ์กฐ์ ์ด ๋ถ๋ถ์ ์ง์ ์งํํ์ง ์์์ง๋ง, ์ฝ๊ฐ ์์ฝํด์ ์ ์ด๋๊ฒ ์..!์์ ๋ณ์ ์ ํ ๋จ๊ณ์์ ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข์๋ model_rf7๊ณผ model_xgb7 ๋๊ฐ์ง๋ฅผ ์ ํํด ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํด๋ณด์๋ค. ๋๋คํฌ๋ ์คํธ ๋ฟ ์๋๋ผ Xgboost๋ ํจ๊ป ์งํํ ์ด์ ๋ ๋ ๋ค์ํ ๊ฒฝ์ฐ์ ์๋ฅผ ์ดํด๋ณด๊ธฐ ์ํด์์๋ค.rf8๋จ๊ณ์์ ๋๋ค์์น ๊ฒฐ๊ณผ์ธ ์ต์ ํํ ํ๋ผ๋ฏธํฐ ์ฌ์ฉ์ ์ ๋ฐ์ ์ผ๋ก ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋์๋ค. → ๋ฐ๋ผ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ์ง ์์ rf7์ xgboost์ best model๊ณผ ๋น๊ตํ๊ธฐ๋ก ํ๋ค.Xgb 8์์ ๊ทธ๋ฆฌ๋ ์์น ๊ฒฐ๊ณผ๋ฅผ ๋ฐ์ํด max_depth & n_estimators๋ฅผ ์กฐ์ ํ๋ค. ๊ทธ ์ํฅ์ผ๋ก ๋น์ฝ์ ์ธ ์ฑ๋ฅ ์์น์ด ..
๐ Data Analysis/๐ฏ Project
์ฌํํ๋ก์ ํธ : ํ๊ท๋ถ์์ ํ์ฉํ ์๋งํธ ์ฃผ๊ฐ ํ๋งค๋ ์์ธก๐ฏ ๋ชจ๋ธ๋ง ํ๊ฐ ์งํ ์ค์ ๋ชจ๋ธ๋ง ์งํ๋ก ์ฌ์ฉํ ๊ฒ์ (1) R-squared, (2) RMSE ๊ทธ๋ฆฌ๊ณ ๋ง์ง๋ง์ผ๋ก (3) WMAE๋ฅผ ์ค์ ํ๋ค. WMAE๋ Kaggle์ ๋์์๋ ํ๊ฐ์งํ์ธ WMAE๋ฅผ ์ฐธ๊ณ ํ ์งํ๋ก, Holiday๋ฅผ ๋์ฑ ์ ํํ๊ฒ ์์ธกํ๊ธฐ ์ํด ํด๋น ์งํ๋ฅผ ์ฌ์ฉํ๋ค. Holiday ์ฃผ๊ฐ์ธ ๊ฒฝ์ฐ ๊ฐ์ค์น(w)๋ฅผ 5๋ก, ์๋ ๊ฒฝ์ฐ ๊ฐ์ค์น๋ฅผ 1๋ก ํ์ฌ ๊ณ์ฐ์ ์งํํ๋ค. ๐ค ๋จธ์ ๋ฌ๋ ์ด๊ธฐ ๋ชจ๋ธ๋ง์์ ์ ํ๋ ๋ณ์๋ค์ ๋ฐํ์ผ๋ก ์ ํํ๊ท๋ชจํ(Linear Regressior)๊ณผ ์ธ๊ฐ์ง ์์๋ธ ๊ธฐ๋ฒ (Gradient Boosting Regressor, ๋๋คํฌ๋ ์คํธ, Xgboost)์ ํ์ฉํด ํผํ
๋ฐ ํ๊ฐ๋ฅผ ์งํํ๋ค.๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ ๋ณ์๋ฅผ ์์ ๊ฐ์ด ์ ํ..
์ฌํํ๋ก์ ํธ : ํ๊ท๋ถ์์ ํ์ฉํ ์๋งํธ ์ฃผ๊ฐ ํ๋งค๋ ์์ธก โ
Weekly Sales์ ์์๊ฐ, ๊ณผ์ฐ ์ด์์น(์ค๊ธฐ์
)๋ก ๋ด์ผํ๋๊ฐ?์๋๋ค. Sales ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ, ํ๋ถ์ด๋ ํ์ ๋ฑ์ ์ฌ์ ๋ก ์์๊ฐ์ด ๋์ฌ์ ์๋ค. ๋ฐ๋ผ์ ์์๊ฐ์ ์ด์์น๋ก ๋ณผ ์ ์๋ค. โ๏ธ ์ด๊ธฐ ๋ณ์ ์ ํ1. Markdown 1~5 ์ปฌ๋ผ์ ์ฌ์ฉํด์ผํ๋๊ฐ?์๋์ ์ด์ ๋ค๋ก Markdown 1~5 ์ปฌ๋ผ์ ์ฌ์ฉํ์ง ์๊ธฐ๋ก ํ๋ค.๊ฒฐ์ธก์น์ ๋น์จ์ด ๋๋ฌด ๋๋ค. → ์ ์ฒด์ 64%๊ฐ ๊ฒฐ์ธก์น์ปฌ๋ผ์ ๋ํ ์ ๋ณด๊ฐ ๋ถ์กฑํ๋ค → ํด๋น ํ๋ชฉ์ ๋ํ sales์ ํฉ๊ณ์ธ์ง ํด๋น ์ผ์์ ๋ํ weekly sales ํฉ๊ณ์ธ์ง ๋ถ๋ช
ํํจ.2. Type, Size ๋ณ์๋ฅผ ๋ชจ๋ ์ฌ์ฉํด์ผํ๋๊ฐ?Type, Size ๋ ๋ณ์๊ฐ ํผ์ด์จ ์๊ด๊ณ์๊ฐ -0.81๋ก ๋ค์ค๊ณต์ ์ฑ ๋ฌธ์ ๊ฐ ์ผ์ด..
์ฌํํ๋ก์ ํธ : ํ๊ท๋ถ์์ ํ์ฉํ ์๋งํธ ์ฃผ๊ฐ ํ๋งค๋ ์์ธก์ฃผ์ ์ ์ ์ฃผ์ ๋ฅผ ๊ณ ๋ฅด๋๋ฐ ์๊ฐ์ด ๊ฝค๋ ์ค๋ ๊ฑธ๋ ธ์ง๋ง, ๊ฒฐ๋ก ์ ์ผ๋ก๋ ๊ฝค๋ ๋ง์กฑํ๋ ์ ํ. ์ฒ์์๋ ๋๋ฌด ๊ฐ๋จํ์ง ์์๊น ์ถ์๋๋ฐ ๋ฐ์ดํฐ๋ฅผ ๋ง์ ๋ฏ์ด๋ณด๋ ์๊ฐํ๋ ๊ฒ๋ณด๋ค ์ด๋ ค์ ๋ค.ํ๋ก์ ํธ ๊ฐ์๋ถ์ ๋ชฉ์ : Walmart ๋งค์ฅ์ ํ๋งค ๋ฐ์ดํฐ๋ฅผ ํฌํจํ๋ฉฐ, ์ฃผ๊ฐ ํ๋งค๋ ์์ธกํ๊ธฐ๋ฐ์ดํฐ ์์ง : Kaggle๋ฐ์ดํฐ ์๊ฐ Walmart Recruiting - Store Sales Forecasting | Kaggle www.kaggle.com๐ก ์ด๋ ค์ ๋ ์ - Markdwon ์ปฌ๋ผ์ด ์ดํด๊ฐ ์ ๊ฐ์ง ์์์. (์ปฌ๋ผ ์ ๋ณด๊ฐ ๋ถ์กฑ)- Dept, Store ์ด ๋ ๊ฐ์ ๋ฒ์ฃผํ ๋ณ์๋ฅผ ์ด๋ป๊ฒ ์ฒ๋ฆฌํด์ผํ ์ง ๊ณ ๋ฏผ์ด ๋ง์ด ๋์๋ค.- ๋ฐ์ดํฐ์ ์๊ฐ ๋๋ฌด ๋ง์๋ฐ ์ด๋ฅผ ์ด๋ป๊ฒ ..
๊ธฐ์ด ํ๋ก์ ํธ : ์ํ ๊ณ ๊ฐ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ์๋น์ค ๋ถ์ ๊ธฐ์ด ํ๋ก์ ํธ : ์ํ ๊ณ ๊ฐ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ์๋น์ค ๋ถ์(5)๊ธฐ์ด ํ๋ก์ ํธ : ์ํ ๊ณ ๊ฐ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ์๋น์ค ๋ถ์๐ ์๊ฐํ - ์๋์ด ๋์ ๊ณ ๊ฐ(VIP)๊ณ ๊ฐ์ ์ก์๋ผ!3. VIP ๊ณ ๊ฐ๋ค์ ์์น ํํฉ ํ์
VIP ๊ณ ๊ฐ๋ค์ ํฌ์๋ฅผ ๋ง์ด ํ๋์ง ์๋๋ฉด ์์น๋ฅผ ํ๋archivenyc.tistory.com๐๏ธ ์ต์ข
๋ฐํ ์๋ฃ ๊ธฐ์ดํ๋ก์ ํธ๋์์ธ ์ ๋ฌธ๊ฐ๊ฐ ์๋์ด๋ ๋ฌด๋ฃ ํ
ํ๋ฆฟ์ผ๋ก ์์ฝ๊ฒ ์ํ๋ ๋์์ธ์ ํ ์ ์์ด์.www.miricanvas.com ๐ ๋ฐํ ํ ๋ฐ์ ํผ๋๋ฐฑ16%์ ๋ฐ์ดํฐ ์์ค์ด ๋ฐ์ํ๋ค๋ ๊ฒ์ ์กฐ๊ธ ํฌ๋ค๊ณ ์๊ฐ, EDA ๊ณผ์ ์์ ๋ฏธ์ํจ์ด ์์๋ค. ํ์ง๋ง ๊ฐ๊ฐ ์ปฌ๋ผ์ ๋ํด ๋ง์ด ์ดํดํ๋ ค๊ณ ๋
ธ๋ ฅํ๊ฒ ๊ฐ์๋ณด์์๊ฐ์ฅ ๋ง์ ๋ค์๋ ๋ถ๋ถ์ 30,50..
๊ธฐ์ด ํ๋ก์ ํธ : ์ํ ๊ณ ๊ฐ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ์๋น์ค ๋ถ์๐ ์๊ฐํ - ์๋์ด ๋์ ๊ณ ๊ฐ(VIP)๊ณ ๊ฐ์ ์ก์๋ผ!3. VIP ๊ณ ๊ฐ๋ค์ ์์น ํํฉ ํ์
VIP ๊ณ ๊ฐ๋ค์ ํฌ์๋ฅผ ๋ง์ด ํ๋์ง ์๋๋ฉด ์์น๋ฅผ ํ๋ ํธ์ธ์ง ์์๋ณด์.โ
VIP ๊ณ ๊ฐ๋ค์ ์๋์ด ๋ง์ผ๋ฉด ํฌ์๋ฅผ ๋ง์ด ํ๋๊ฐ?# ์ฌ์ด์ฆ ์ง์ plt.figure(figsize=(16,9))# ์ฐ์ ๋ ๊ทธ๋ฆฌ๊ธฐsns.scatterplot(data = stat, x='Monthly_Income', y='Amount_invested_monthly', hue = 'age_group', palette = green_palette2, alpha= 0.5)# ์ ๋ชฉ ๋ถ์ด๊ธฐplt.title('Regression Analysis of Monthly Income - Amount of M..