심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측 ✅ Weekly Sales의 음수값, 과연 이상치(오기입)로 봐야하는가?아니다. Sales 데이터의 경우, 환불이나 파손 등의 사유로 음수값이 나올수 있다. 따라서 음수값을 이상치로 볼 수 없다. ✔️ 초기 변수 선택1. Markdown 1~5 컬럼을 사용해야하는가?아래의 이유들로 Markdown 1~5 컬럼을 사용하지 않기로 했다.결측치의 비율이 너무 높다. → 전체의 64%가 결측치컬럼에 대한 정보가 부족하다 → 해당 품목에 대한 sales의 합계인지 해당 일자에 대한 weekly sales 합계인지 불명확함.2. Type, Size 변수를 모두 사용해야하는가?Type, Size 두 변수간 피어슨 상관계수가 -0.81로 다중공선성 문제가 일어..
심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측주제선정 주제를 고르는데 시간이 꽤나 오래 걸렸지만, 결론적으로는 꽤나 만족했던 선택. 처음에는 너무 간단하지 않을까 싶었는데 데이터를 막상 뜯어보니 생각했던 것보다 어려웠다.프로젝트 개요분석 목적 : Walmart 매장의 판매 데이터를 포함하며, 주간 판매량 예측하기데이터 수집 : Kaggle데이터 소개 Walmart Recruiting - Store Sales Forecasting | Kaggle www.kaggle.com💡 어려웠던 점 - Markdwon 컬럼이 이해가 잘 가지 않았음. (컬럼 정보가 부족)- Dept, Store 이 두 개의 범주형 변수를 어떻게 처리해야할지 고민이 많이 되었다.- 데이터의 수가 너무 많은데 이를 어떻게 ..
기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석 기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석 (1)기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석프로젝트 개요분석 목적 : 은행 고객데이터를 이용해 서비스의 현황을 분석하고 고객을 분류하기.데이터 수집 : Kaggle데이터 소개 Baarchivenyc.tistory.com다시 시작한 전처리..! 그래도 목표가 구체화 된 덕에 오히려 갖고 가야 할 부분과 버리고 가야 할 부분이 명확해져서 좋았다. 몸이 안따라줘서 시간을 많이 쏟지는 못했지만, 그래도 밀도 있게 보낸것 같아 뿌듯했던 하루!🎯 목표 설정나이, 직업, 연간 소득 등의 특성에 따라 고객을 어떻게 세분화할 수 있을까요?→ 고객 ID(Customer_ID)를 기본값으로 ..
기초 프로젝트 : 은행 고객데이터를 이용한 서비스 분석프로젝트 개요분석 목적 : 은행 고객데이터를 이용해 서비스의 현황을 분석하고 고객을 분류하기.데이터 수집 : Kaggle데이터 소개 Bank User DatasetThis dataset contains user behaviors contributing to their credit scorewww.kaggle.com✅ 전체 컬럼 수 : 50,000개 (같은 고객의 9,10,11,12월치 데이터가 들어있어 실제 total_user의 수는 12,500명) 💡 어려웠던 점 - int, float 타입의 데이터여야 할 것들이 언더바가 붙는(이상값) 경우가 많아 이를 적절히 솎아내기 어려움.- 데이터 description이 없다 보니 데이터 자체를 이해..