전체 글

심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측🤖 머신러닝 : 하이퍼파라미터 조정이 부분은 직접 진행하지 않았지만, 약간 요약해서 적어두겠음..!앞의 변수 선택 단계에서 성능이 가장 좋았던 model_rf7과 model_xgb7 두가지를 선택해 하이퍼파라미터를 조정해보았다. 랜덤포레스트 뿐 아니라 Xgboost도 함께 진행한 이유는 더 다양한 경우의 수를 살펴보기 위해서였다.rf8단계에서 랜덤서치 결과인 최적화한 파라미터 사용시 전반적으로 성능이 크게 저하되었다. → 따라서 파라미터를 조정하지 않은 rf7을 xgboost의 best model과 비교하기로 했다.Xgb 8에서 그리드 서치 결과를 반영해 max_depth & n_estimators를 조정했다. 그 영향으로 비약적인 성능 상승이 ..
심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측🎯 모델링 평가 지표 설정모델링 지표로 사용한 것은 (1) R-squared, (2) RMSE 그리고 마지막으로 (3) WMAE를 설정했다. WMAE는 Kaggle에 나와있는 평가지표인 WMAE를 참고한 지표로, Holiday를 더욱 정확하게 예측하기 위해 해당 지표를 사용했다. Holiday 주간인 경우 가중치(w)를 5로, 아닌 경우 가중치를 1로 하여 계산을 진행했다. 🤖 머신러닝 초기 모델링앞서 선택된 변수들을 바탕으로 선형회귀모형(Linear Regressior)과 세가지 앙상블 기법 (Gradient Boosting Regressor, 랜덤포레스트, Xgboost)을 활용해 피팅 및 평가를 진행했다.모델링 결과 변수를 위와 같이 선택..
심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측 ✅ Weekly Sales의 음수값, 과연 이상치(오기입)로 봐야하는가?아니다. Sales 데이터의 경우, 환불이나 파손 등의 사유로 음수값이 나올수 있다. 따라서 음수값을 이상치로 볼 수 없다. ✔️ 초기 변수 선택1. Markdown 1~5 컬럼을 사용해야하는가?아래의 이유들로 Markdown 1~5 컬럼을 사용하지 않기로 했다.결측치의 비율이 너무 높다. → 전체의 64%가 결측치컬럼에 대한 정보가 부족하다 → 해당 품목에 대한 sales의 합계인지 해당 일자에 대한 weekly sales 합계인지 불명확함.2. Type, Size 변수를 모두 사용해야하는가?Type, Size 두 변수간 피어슨 상관계수가 -0.81로 다중공선성 문제가 일어..
심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측주제선정 주제를 고르는데 시간이 꽤나 오래 걸렸지만, 결론적으로는 꽤나 만족했던 선택. 처음에는 너무 간단하지 않을까 싶었는데 데이터를 막상 뜯어보니 생각했던 것보다 어려웠다.프로젝트 개요분석 목적 : Walmart 매장의 판매 데이터를 포함하며, 주간 판매량 예측하기데이터 수집 : Kaggle데이터 소개 Walmart Recruiting - Store Sales Forecasting | Kaggle www.kaggle.com💡 어려웠던 점 - Markdwon 컬럼이 이해가 잘 가지 않았음. (컬럼 정보가 부족)- Dept, Store 이 두 개의 범주형 변수를 어떻게 처리해야할지 고민이 많이 되었다.- 데이터의 수가 너무 많은데 이를 어떻게 ..
240614 Today I Learn클러스터링이란?💡 클러스터링데이터분석에서 피쳐(컬럼) 유사성의 개념을 기반으로 전체데이터셋을 그룹으로 나누는 기법. (이때, 각 그룹을 클러스터라고 한다.)→ 데이터분석가는 방대하게 구축된 DB에서 의미있는 특징(컬럼)을 찾고,최적의 그룹 개수를 찾아 그룹별 인사이트를 도출하는 역할을 수행하게 된다. 클러스터링 프로세스전처리 프로세스1. 기간선정 : 클러스터링을 위한 데이터 기간을 설정 최소 3개월 이상의 데이터셋이 권장 → 주별/ 월별 이벤트/서비스 진행. 따라서 이러한 특성을 한달만 보고 판단하기는 어려움. 클러스터링의 목적 :  live 한 데이터의 유입시 해당 유저의 행동을 통해, 이를 알맞게 배치시키는 모델의 생성→  서비스 변동사항에 따라서 일정 주기에 따..
240613 Today I Learn어렵다..☆선형회귀해석적으로(수학적으로) 구하기정규방정식 (Normal Equation)sklearn의 Linear Regeression정규방정식 보다 더욱 일반화된 방법통계학에서 배우는 Least Squares와 같음선형대수에서 배우는 SVD(Singular Value Decomposition) 계산을 수행하는 유사역행렬을 계산하는 것이라고도 볼 수 있음경사하강법으로 구하기💡 경사하강법기울기를 이용해서 파라미터를 학습하는 방법Batch : 학습 데이터 전부 다 기울기를 구하는 것SGD : 랜덤으로 1개만 골라서 기울기를 구하는 것, 대신 불안정함Mini-Batch : 학습 데이터 일부에 대해서 묶어 기울기를 구하는 것특성이 많고 데이터 개수가 많을 때 적합한 방법오..
ny:D
n.archive