python

심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측🎯 모델링 평가 지표 설정모델링 지표로 사용한 것은 (1) R-squared, (2) RMSE 그리고 마지막으로 (3) WMAE를 설정했다. WMAE는 Kaggle에 나와있는 평가지표인 WMAE를 참고한 지표로, Holiday를 더욱 정확하게 예측하기 위해 해당 지표를 사용했다. Holiday 주간인 경우 가중치(w)를 5로, 아닌 경우 가중치를 1로 하여 계산을 진행했다. 🤖 머신러닝 초기 모델링앞서 선택된 변수들을 바탕으로 선형회귀모형(Linear Regressior)과 세가지 앙상블 기법 (Gradient Boosting Regressor, 랜덤포레스트, Xgboost)을 활용해 피팅 및 평가를 진행했다.모델링 결과 변수를 위와 같이 선택..
심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측 ✅ Weekly Sales의 음수값, 과연 이상치(오기입)로 봐야하는가?아니다. Sales 데이터의 경우, 환불이나 파손 등의 사유로 음수값이 나올수 있다. 따라서 음수값을 이상치로 볼 수 없다. ✔️ 초기 변수 선택1. Markdown 1~5 컬럼을 사용해야하는가?아래의 이유들로 Markdown 1~5 컬럼을 사용하지 않기로 했다.결측치의 비율이 너무 높다. → 전체의 64%가 결측치컬럼에 대한 정보가 부족하다 → 해당 품목에 대한 sales의 합계인지 해당 일자에 대한 weekly sales 합계인지 불명확함.2. Type, Size 변수를 모두 사용해야하는가?Type, Size 두 변수간 피어슨 상관계수가 -0.81로 다중공선성 문제가 일어..
심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측주제선정 주제를 고르는데 시간이 꽤나 오래 걸렸지만, 결론적으로는 꽤나 만족했던 선택. 처음에는 너무 간단하지 않을까 싶었는데 데이터를 막상 뜯어보니 생각했던 것보다 어려웠다.프로젝트 개요분석 목적 : Walmart 매장의 판매 데이터를 포함하며, 주간 판매량 예측하기데이터 수집 : Kaggle데이터 소개 Walmart Recruiting - Store Sales Forecasting | Kaggle www.kaggle.com💡 어려웠던 점 - Markdwon 컬럼이 이해가 잘 가지 않았음. (컬럼 정보가 부족)- Dept, Store 이 두 개의 범주형 변수를 어떻게 처리해야할지 고민이 많이 되었다.- 데이터의 수가 너무 많은데 이를 어떻게 ..
240603 Today I Learn머신러닝이란?💡 머신러닝(Machine Learning, ML)관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘. 기술 통계 등을 통하여 집계된 정보로 의사결정을 했던 과거와 달리 데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론.머신러닝의 종류지도학습 : 문제와 정답을 모두 알려주고 공부시키는 방법예측분류비지도학습 : 답을 알려주지 않고 공부시키는 방법연관규칙군집강화학습 : 보상을 통해 상은 최대화, 벌은 최소화 하는 방향으로 행위를 강화선형회귀분석 이론💡선형회귀(Linear Regression)종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법..
기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석  기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석 (1)기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석프로젝트 개요분석 목적 : 은행 고객데이터를 이용해 서비스의 현황을 분석하고 고객을 분류하기.데이터 수집 : Kaggle데이터 소개  Baarchivenyc.tistory.com다시 시작한 전처리..! 그래도 목표가 구체화 된 덕에 오히려 갖고 가야 할 부분과 버리고 가야 할 부분이 명확해져서 좋았다. 몸이 안따라줘서 시간을 많이 쏟지는 못했지만, 그래도 밀도 있게 보낸것 같아 뿌듯했던 하루!🎯 목표 설정나이, 직업, 연간 소득 등의 특성에 따라 고객을 어떻게 세분화할 수 있을까요?→ 고객 ID(Customer_ID)를 기본값으로 ..
기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석프로젝트 개요분석 목적 : 은행 고객데이터를 이용해 서비스의 현황을 분석하고 고객을 분류하기.데이터 수집 : Kaggle데이터 소개  Bank User DatasetThis dataset contains user behaviors contributing to their credit scorewww.kaggle.com✅ 전체 컬럼 수  : 50,000개 (같은 고객의 9,10,11,12월치 데이터가 들어있어 실제 total_user의 수는 12,500명)  💡 어려웠던 점 - int, float 타입의 데이터여야 할 것들이 언더바가 붙는(이상값) 경우가 많아 이를 적절히 솎아내기 어려움.- 데이터 description이 없다 보니 데이터 자체를 이해..
ny:D
'python' 태그의 글 목록 (2 Page)