๐Ÿ“Š Data Analysis

์‹ค์ „ ํ”„๋กœ์ ํŠธ : What's Next? ์ฃผ์ œ์„ ์ • ๋ฐฐ๊ฒฝ์ฃผ์ œ ์„ ์ • ๊ณผ์ •์—์„œ, ํƒœ๋ธ”๋กœ์— ์กฐ๊ธˆ ๋” ์ง‘์ค‘ํ•˜๊ณ ์ž '๊ณผ๊ฑฐ ๋งˆ๋ธ” ์˜ํ™” ํฅํ–‰ ๋ถ„์„์„ ํ†ตํ•œ ์‹ ๊ทœ ๋งˆ๋ธ” ์ปจํ…์ธ  ๊ธฐํš'์„ ์ฃผ์ œ๋กœ ํ”„๋กœ์ ํŠธ๋ฅผ ์ง„ํ–‰ํ•˜๋ ค๊ณ  ํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, ๊ธฐ์ˆ ์  ํ•œ๊ณ„๋กœ ์›นํฌ๋กค๋ง์„ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์—†์—ˆ๊ธฐ์— kaggle์— ๊ณต์œ ๋œ 'TMDB' ๋ฐ์ดํ„ฐ๋ฅผ ์„ ์ •ํ•ด ํ”„๋กœ์ ํŠธ๋ฅผ ์ง„ํ–‰ํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค. ํ”„๋กœ์ ํŠธ ๊ธฐํš๊ฐœ์š”๐ŸŒˆ ‘์ฟ ํŒกํ”Œ๋ ˆ์ด’์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„๊ฐ€์ธ ์ €ํฌ๋Š” 8์›”์— ์ƒˆ๋กญ๊ฒŒ ๋Ÿฐ์นญํ•  ์˜ํ™”๋ฅผ ์•Œ๊ณ  ์‹ถ๋‹ค๋Š” ์‚ฌ์—…ํŒ€์˜ ์š”์ฒญ์„ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค.TMDB ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”๋ฅผ ํ†ตํ•ด Tableau ๋Œ€์‹œ๋ณด๋“œ ์ œ์ž‘ ๋Šฅ๋ ฅ์„ ๊ธฐ๋ฅด๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.TMDB ๋ฐ์ดํ„ฐ ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ํฅํ–‰ ์ž‘ํ’ˆ, ๊ตญ๊ฐ€๋ณ„ ์„ ํ˜ธ๋„, ROI ๋“ฑ์„ ๋ถ„์„ํ•˜๊ณ  ๋‹ค์Œ ์‹ ๊ทœ ์ปจํ…์ธ  ์ œ์ž‘ ์‹œ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€์‹œ๋ณด๋“œ๋ฅผ ์ œ๊ณตํ•˜..
์‹ฌํ™”ํ”„๋กœ์ ํŠธ : ํšŒ๊ท€๋ถ„์„์„ ํ™œ์šฉํ•œ ์›”๋งˆํŠธ ์ฃผ๊ฐ„ ํŒ๋งค๋Ÿ‰ ์˜ˆ์ธก๐Ÿ’– ๋ฐœํ‘œ ํ›„ ๋ฐ›์€ ํ”ผ๋“œ๋ฐฑ์ข‹์•˜๋˜ ๋ถ€๋ถ„ํŒ€์›๋ณ„๋กœ ์—ญํ• ์ด ๋ช…ํ™•ํ•ด ์ข‹์•˜๋‹ค.ํ…Œ์ด๋ธ”๋ณ„๋กœ ๋ฐ์ดํ„ฐ ํƒ€์ž…์„ ๋ช…์‹œํ•ด ์ค€ ์ ๊ณผ, ๋น„๊ณ  ๋ถ€๋ถ„์—์„œ ๋งˆํฌ๋‹ค์šด ์ปฌ๋Ÿผ์— ๊ฒฐ์ธก์น˜๊ฐ€ ์žˆ๋‹ค๋Š” ์ ์„ ๋ช…์‹œํ•œ ์ ์ด ์ข‹์•˜๋‹ค.๋ผ๋ฒจ์ธ์ฝ”๋”ฉ์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ๊ธฐ์ค€์ด ์žˆ์–ด ์ข‹์•˜๋‹ค.์‹œ๊ฐํ™”์‹œ ์—ฐ๋„๋ณ„๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋Š” ๊ตฌ๋ถ„์„ ์„ ํ‘œ๊ธฐํ•ด์ค˜์„œ ์ข‹์•˜๋‹ค.์„ ํ˜•ํšŒ๊ท€ ๋ชจ๋ธ์„ ์„ ํƒํ•˜์ง€ ์•Š์€ ์ด์œ ๋ฅผ ์ˆซ์ž๋กœ ์ฆ๋ช…ํ•ด์„œ ์ข‹์•˜์Œ.์ถ”๊ฐ€๋กœ ๋ณ€์ˆ˜๋ฅผ ๋„ฃ์„ ์ƒ๊ฐ์„ ์ž˜ ํ•˜์ง€ ์•Š๊ฒŒ ๋˜๋Š”๋ฐ, ๊ฐ€์„ค1์—์„œ ์ถ”๊ฐ€์ปฌ๋Ÿผ week ์„ ์ •ํ•œ ๊ฒƒ ์ข‹์•˜์Œ.๋˜ํ•œ ๊ฐ€์„ค์„ ์กฐํ•ฉํ•ด์„œ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ํ•  ์ƒ๊ฐ์„ ํ•œ๊ฒƒ์ด ์ข‹์•˜๋‹ค. ๋ชจ๋ธ ์•ˆ์ •์„ฑ์— ๋Œ€ํ•ด ๊ณ ๋ คํ•œ ๊ฒƒ๋„ ์ข‹์•˜๋‹ค. -> ์„ฑ๋Šฅ์— ๋„ˆ๋ฌด ์ดˆ์ ์— ๋งž์ถฐ์ง€๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋Š”๋ฐ ๋ชจ๋ธ ์•ˆ์ •์„ฑ ~์ „์ฒด์ ์œผ๋กœ  ์—ฐ๊ฒฐ์„ฑ์ด ์žˆ์–ด์„œ ์ข‹์•˜๋‹ค.์•„์‰ฌ์šด ๋ถ€๋ถ„๋งˆํฌ..
์‹ฌํ™”ํ”„๋กœ์ ํŠธ : ํšŒ๊ท€๋ถ„์„์„ ํ™œ์šฉํ•œ ์›”๋งˆํŠธ ์ฃผ๊ฐ„ ํŒ๋งค๋Ÿ‰ ์˜ˆ์ธก๐Ÿค– ๋จธ์‹ ๋Ÿฌ๋‹ : ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •์ด ๋ถ€๋ถ„์€ ์ง์ ‘ ์ง„ํ–‰ํ•˜์ง€ ์•Š์•˜์ง€๋งŒ, ์•ฝ๊ฐ„ ์š”์•ฝํ•ด์„œ ์ ์–ด๋‘๊ฒ ์Œ..!์•ž์˜ ๋ณ€์ˆ˜ ์„ ํƒ ๋‹จ๊ณ„์—์„œ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์ข‹์•˜๋˜ model_rf7๊ณผ model_xgb7 ๋‘๊ฐ€์ง€๋ฅผ ์„ ํƒํ•ด ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •ํ•ด๋ณด์•˜๋‹ค. ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ ๋ฟ ์•„๋‹ˆ๋ผ Xgboost๋„ ํ•จ๊ป˜ ์ง„ํ–‰ํ•œ ์ด์œ ๋Š” ๋” ๋‹ค์–‘ํ•œ ๊ฒฝ์šฐ์˜ ์ˆ˜๋ฅผ ์‚ดํŽด๋ณด๊ธฐ ์œ„ํ•ด์„œ์˜€๋‹ค.rf8๋‹จ๊ณ„์—์„œ ๋žœ๋ค์„œ์น˜ ๊ฒฐ๊ณผ์ธ ์ตœ์ ํ™”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์‚ฌ์šฉ์‹œ ์ „๋ฐ˜์ ์œผ๋กœ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋˜์—ˆ๋‹ค. → ๋”ฐ๋ผ์„œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •ํ•˜์ง€ ์•Š์€ rf7์„ xgboost์˜ best model๊ณผ ๋น„๊ตํ•˜๊ธฐ๋กœ ํ–ˆ๋‹ค.Xgb 8์—์„œ ๊ทธ๋ฆฌ๋“œ ์„œ์น˜ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ˜์˜ํ•ด max_depth & n_estimators๋ฅผ ์กฐ์ •ํ–ˆ๋‹ค. ๊ทธ ์˜ํ–ฅ์œผ๋กœ ๋น„์•ฝ์ ์ธ ์„ฑ๋Šฅ ์ƒ์Šน์ด ..
์‹ฌํ™”ํ”„๋กœ์ ํŠธ : ํšŒ๊ท€๋ถ„์„์„ ํ™œ์šฉํ•œ ์›”๋งˆํŠธ ์ฃผ๊ฐ„ ํŒ๋งค๋Ÿ‰ ์˜ˆ์ธก๐ŸŽฏ ๋ชจ๋ธ๋ง ํ‰๊ฐ€ ์ง€ํ‘œ ์„ค์ •๋ชจ๋ธ๋ง ์ง€ํ‘œ๋กœ ์‚ฌ์šฉํ•œ ๊ฒƒ์€ (1) R-squared, (2) RMSE ๊ทธ๋ฆฌ๊ณ  ๋งˆ์ง€๋ง‰์œผ๋กœ (3) WMAE๋ฅผ ์„ค์ •ํ–ˆ๋‹ค. WMAE๋Š” Kaggle์— ๋‚˜์™€์žˆ๋Š” ํ‰๊ฐ€์ง€ํ‘œ์ธ WMAE๋ฅผ ์ฐธ๊ณ ํ•œ ์ง€ํ‘œ๋กœ, Holiday๋ฅผ ๋”์šฑ ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด ํ•ด๋‹น ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. Holiday ์ฃผ๊ฐ„์ธ ๊ฒฝ์šฐ ๊ฐ€์ค‘์น˜(w)๋ฅผ 5๋กœ, ์•„๋‹Œ ๊ฒฝ์šฐ ๊ฐ€์ค‘์น˜๋ฅผ 1๋กœ ํ•˜์—ฌ ๊ณ„์‚ฐ์„ ์ง„ํ–‰ํ–ˆ๋‹ค. ๐Ÿค– ๋จธ์‹ ๋Ÿฌ๋‹ ์ดˆ๊ธฐ ๋ชจ๋ธ๋ง์•ž์„œ ์„ ํƒ๋œ ๋ณ€์ˆ˜๋“ค์„ ๋ฐ”ํƒ•์œผ๋กœ ์„ ํ˜•ํšŒ๊ท€๋ชจํ˜•(Linear Regressior)๊ณผ ์„ธ๊ฐ€์ง€ ์•™์ƒ๋ธ” ๊ธฐ๋ฒ• (Gradient Boosting Regressor, ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ, Xgboost)์„ ํ™œ์šฉํ•ด ํ”ผํŒ… ๋ฐ ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ–ˆ๋‹ค.๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ ๋ณ€์ˆ˜๋ฅผ ์œ„์™€ ๊ฐ™์ด ์„ ํƒ..
์‹ฌํ™”ํ”„๋กœ์ ํŠธ : ํšŒ๊ท€๋ถ„์„์„ ํ™œ์šฉํ•œ ์›”๋งˆํŠธ ์ฃผ๊ฐ„ ํŒ๋งค๋Ÿ‰ ์˜ˆ์ธก โœ… Weekly Sales์˜ ์Œ์ˆ˜๊ฐ’, ๊ณผ์—ฐ ์ด์ƒ์น˜(์˜ค๊ธฐ์ž…)๋กœ ๋ด์•ผํ•˜๋Š”๊ฐ€?์•„๋‹ˆ๋‹ค. Sales ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ, ํ™˜๋ถˆ์ด๋‚˜ ํŒŒ์† ๋“ฑ์˜ ์‚ฌ์œ ๋กœ ์Œ์ˆ˜๊ฐ’์ด ๋‚˜์˜ฌ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์Œ์ˆ˜๊ฐ’์„ ์ด์ƒ์น˜๋กœ ๋ณผ ์ˆ˜ ์—†๋‹ค. โœ”๏ธ ์ดˆ๊ธฐ ๋ณ€์ˆ˜ ์„ ํƒ1. Markdown 1~5 ์ปฌ๋Ÿผ์„ ์‚ฌ์šฉํ•ด์•ผํ•˜๋Š”๊ฐ€?์•„๋ž˜์˜ ์ด์œ ๋“ค๋กœ Markdown 1~5 ์ปฌ๋Ÿผ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ธฐ๋กœ ํ–ˆ๋‹ค.๊ฒฐ์ธก์น˜์˜ ๋น„์œจ์ด ๋„ˆ๋ฌด ๋†’๋‹ค. → ์ „์ฒด์˜ 64%๊ฐ€ ๊ฒฐ์ธก์น˜์ปฌ๋Ÿผ์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ๋ถ€์กฑํ•˜๋‹ค → ํ•ด๋‹น ํ’ˆ๋ชฉ์— ๋Œ€ํ•œ sales์˜ ํ•ฉ๊ณ„์ธ์ง€ ํ•ด๋‹น ์ผ์ž์— ๋Œ€ํ•œ weekly sales ํ•ฉ๊ณ„์ธ์ง€ ๋ถˆ๋ช…ํ™•ํ•จ.2. Type, Size ๋ณ€์ˆ˜๋ฅผ ๋ชจ๋‘ ์‚ฌ์šฉํ•ด์•ผํ•˜๋Š”๊ฐ€?Type, Size ๋‘ ๋ณ€์ˆ˜๊ฐ„ ํ”ผ์–ด์Šจ ์ƒ๊ด€๊ณ„์ˆ˜๊ฐ€ -0.81๋กœ ๋‹ค์ค‘๊ณต์„ ์„ฑ ๋ฌธ์ œ๊ฐ€ ์ผ์–ด..
์‹ฌํ™”ํ”„๋กœ์ ํŠธ : ํšŒ๊ท€๋ถ„์„์„ ํ™œ์šฉํ•œ ์›”๋งˆํŠธ ์ฃผ๊ฐ„ ํŒ๋งค๋Ÿ‰ ์˜ˆ์ธก์ฃผ์ œ์„ ์ • ์ฃผ์ œ๋ฅผ ๊ณ ๋ฅด๋Š”๋ฐ ์‹œ๊ฐ„์ด ๊ฝค๋‚˜ ์˜ค๋ž˜ ๊ฑธ๋ ธ์ง€๋งŒ, ๊ฒฐ๋ก ์ ์œผ๋กœ๋Š” ๊ฝค๋‚˜ ๋งŒ์กฑํ–ˆ๋˜ ์„ ํƒ. ์ฒ˜์Œ์—๋Š” ๋„ˆ๋ฌด ๊ฐ„๋‹จํ•˜์ง€ ์•Š์„๊นŒ ์‹ถ์—ˆ๋Š”๋ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ง‰์ƒ ๋œฏ์–ด๋ณด๋‹ˆ ์ƒ๊ฐํ–ˆ๋˜ ๊ฒƒ๋ณด๋‹ค ์–ด๋ ค์› ๋‹ค.ํ”„๋กœ์ ํŠธ ๊ฐœ์š”๋ถ„์„ ๋ชฉ์  : Walmart ๋งค์žฅ์˜ ํŒ๋งค ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์ฃผ๊ฐ„ ํŒ๋งค๋Ÿ‰ ์˜ˆ์ธกํ•˜๊ธฐ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ : Kaggle๋ฐ์ดํ„ฐ ์†Œ๊ฐœ Walmart Recruiting - Store Sales Forecasting | Kaggle www.kaggle.com๐Ÿ’ก ์–ด๋ ค์› ๋˜ ์  - Markdwon ์ปฌ๋Ÿผ์ด ์ดํ•ด๊ฐ€ ์ž˜ ๊ฐ€์ง€ ์•Š์•˜์Œ. (์ปฌ๋Ÿผ ์ •๋ณด๊ฐ€ ๋ถ€์กฑ)- Dept, Store ์ด ๋‘ ๊ฐœ์˜ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜๋ฅผ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•ด์•ผํ• ์ง€ ๊ณ ๋ฏผ์ด ๋งŽ์ด ๋˜์—ˆ๋‹ค.- ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๋งŽ์€๋ฐ ์ด๋ฅผ ์–ด๋–ป๊ฒŒ ..
ny:D
'๐Ÿ“Š Data Analysis' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก (2 Page)