심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측🎯 모델링 평가 지표 설정모델링 지표로 사용한 것은 (1) R-squared, (2) RMSE 그리고 마지막으로 (3) WMAE를 설정했다. WMAE는 Kaggle에 나와있는 평가지표인 WMAE를 참고한 지표로, Holiday를 더욱 정확하게 예측하기 위해 해당 지표를 사용했다. Holiday 주간인 경우 가중치(w)를 5로, 아닌 경우 가중치를 1로 하여 계산을 진행했다. 🤖 머신러닝 초기 모델링앞서 선택된 변수들을 바탕으로 선형회귀모형(Linear Regressior)과 세가지 앙상블 기법 (Gradient Boosting Regressor, 랜덤포레스트, Xgboost)을 활용해 피팅 및 평가를 진행했다.모델링 결과 변수를 위와 같이 선택..
Project
심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측 ✅ Weekly Sales의 음수값, 과연 이상치(오기입)로 봐야하는가?아니다. Sales 데이터의 경우, 환불이나 파손 등의 사유로 음수값이 나올수 있다. 따라서 음수값을 이상치로 볼 수 없다. ✔️ 초기 변수 선택1. Markdown 1~5 컬럼을 사용해야하는가?아래의 이유들로 Markdown 1~5 컬럼을 사용하지 않기로 했다.결측치의 비율이 너무 높다. → 전체의 64%가 결측치컬럼에 대한 정보가 부족하다 → 해당 품목에 대한 sales의 합계인지 해당 일자에 대한 weekly sales 합계인지 불명확함.2. Type, Size 변수를 모두 사용해야하는가?Type, Size 두 변수간 피어슨 상관계수가 -0.81로 다중공선성 문제가 일어..
심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측주제선정 주제를 고르는데 시간이 꽤나 오래 걸렸지만, 결론적으로는 꽤나 만족했던 선택. 처음에는 너무 간단하지 않을까 싶었는데 데이터를 막상 뜯어보니 생각했던 것보다 어려웠다.프로젝트 개요분석 목적 : Walmart 매장의 판매 데이터를 포함하며, 주간 판매량 예측하기데이터 수집 : Kaggle데이터 소개 Walmart Recruiting - Store Sales Forecasting | Kaggle www.kaggle.com💡 어려웠던 점 - Markdwon 컬럼이 이해가 잘 가지 않았음. (컬럼 정보가 부족)- Dept, Store 이 두 개의 범주형 변수를 어떻게 처리해야할지 고민이 많이 되었다.- 데이터의 수가 너무 많은데 이를 어떻게 ..
기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석 기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석(5)기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석📊 시각화 - 소득이 높은 고객(VIP)고객을 잡아라!3. VIP 고객들의 예치 현황 파악VIP 고객들은 투자를 많이 하는지 아니면 예치를 하는archivenyc.tistory.com🎙️ 최종 발표 자료 기초프로젝트디자인 전문가가 아니어도 무료 템플릿으로 손쉽게 원하는 디자인을 할 수 있어요.www.miricanvas.com 💖 발표 후 받은 피드백16%의 데이터 손실이 발생했다는 것은 조금 크다고 생각, EDA 과정에서 미숙함이 있었다. 하지만 각각 컬럼에 대해 많이 이해하려고 노력한것 같아보였음가장 맘에 들었던 부분은 30,50..
기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석📊 시각화 - 소득이 높은 고객(VIP)고객을 잡아라!3. VIP 고객들의 예치 현황 파악VIP 고객들은 투자를 많이 하는지 아니면 예치를 하는 편인지 알아보자.✅ VIP 고객들은 소득이 많으면 투자를 많이 하는가?# 사이즈 지정plt.figure(figsize=(16,9))# 산점도 그리기sns.scatterplot(data = stat, x='Monthly_Income', y='Amount_invested_monthly', hue = 'age_group', palette = green_palette2, alpha= 0.5)# 제목 붙이기plt.title('Regression Analysis of Monthly Income - Amount of M..
기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석🗂️ 데이터 정규화 & 표준화Age_group을 생성고객들의 Age를 10대, 20대, 30대 등의 범주로 그룹화해 ‘age_group’ 컬럼을 추가적으로 생성했다.bank_numeric['age_group']= [int(i//10)*10 for i in bank_numeric['Age']] Loan Type을 분리해 더미 변수로 만들기Type_of_Loan 컬럼의 경우 Loan의 종류별로 구분된 것이 아니라 컴마를 통해 하나의 값으로 연결되어있는데, 이렇게 되면 다음과 같은 문제가 발생하게된다.✅ 고객마다 어떤 종류의 대출을 받았는지 확인하기 어려움✅ 대출 종류는 같아도 순서가 다르기 때문에 하나의 컬럼으로 합치기 어려움따라서 데이터에서 조금더 쉽..