Project

실전 프로젝트 : What's Next?💖 발표 후 받은 피드백대시보드 활용 방안에 대한 데모가 잘 만들어 진 것 같다.배경의 가운데 그라데이션 때문에 회색 점이 잘 보이지 않아서 아쉬웠다.데이터 분석에 있어 굉장히 디테일했다. 특히 결측치 제거 부분에서 단순하게 처리하지 않고 하나씩 따져가면서 어떤 것들을 제거해야 할지, 어떻게 제거할지 고민한 것이 잘 보였다. 물론 너무 빨리 지나가서 자세히 살펴보지 못했음. (어쩔수 없는건 인정)그 밖에도 다양한 상관관계 분석과 제작사, 언어 등 구분을 나눠서 EDA 진행한 것이 좋았다. 다만, 그래프를 보여줄 때 글자가 작아서 잘 보이지 않는 그래프들이 있어서 아쉬웠다.전반적인 분석의 로직과 분석에 있어서 디테일하게 신경쓴 것들은 잘 했다고 봤다.큰 변수인 코로..
실전 프로젝트 : What's Next?Figma 이용 배경 만들기메인 대시보드Scatter Plot 그리기1. 투표 수(x축) 대비 수익(y축) 블록버스터 영화(글로벌 매출 4억 달러 이상)매출이 4억달러 이상인 블록버스터 영화만 필터링y축 profit 은 Revenue(매출) - Budget(예산)평점대에 따라 색상 지정`FLOOR([Vote Average])`를 이용 '평점'이라는 계산된 필드를 새롭게 생성이를 색상에 넣어 평점대에 따라 색상이 지정되도록 함.2. 투표수(x축) 대비 수익(y축) 매출과 예산이 모두 0보다 큰 상업영화만 필터링Blockbuster(핑크) vs. General(회색) : 집합기능을 활용 색 구분. 블록버스터 영화들의 특징이 무엇인지 파악할 수 있도록 함.고평점(★, 7..
실전 프로젝트 : What's Next?EDA상관관계 히트맵 그리기더보기# 상관관계 분석을 위한 라벨 인코딩from sklearn.preprocessing import LabelEncoderle1 = LabelEncoder()le2 = LabelEncoder()le3= LabelEncoder()le4= LabelEncoder()df5['adult_le'] = le1.fit_transform(df5['adult']) #adultdf5['original_language_le'] = le2.fit_transform(df5['original_language']) #original_languagedf5['main_genre_le'] = le3.fit_transform(df5['main_genre']) #main ..
실전 프로젝트 : What's Next?컬럼 정보분석에 사용될 컬럼vote_average, vote_count, release_date, revenue, runtime, adult, budget, original_language, poster_path, genres, production_companies, production_countries, spoken_languages, keywordsid(기본키) - 영화 제목이 같지만, 고유한 id가 부여되어 영화를 구분할 수 있게 해줌.status - 데이터 전처리 과정에서 '개봉(released)' 상태의 영화를 골라내기 위해 사용 후 삭제데이터를 어떻게 가공해 활용할지?✅ 코로나 전후 비교 → 시간선 설정2023 9월 이후 데이터가 이전과 비교해 많이 적음..
실전 프로젝트 : What's Next? 주제선정 배경주제 선정 과정에서, 태블로에 조금 더 집중하고자 '과거 마블 영화 흥행 분석을 통한 신규 마블 컨텐츠 기획'을 주제로 프로젝트를 진행하려고 했다. 그러나, 기술적 한계로 웹크롤링을 활용해 데이터를 수집할 수 없었기에 kaggle에 공유된 'TMDB' 데이터를 선정해 프로젝트를 진행하게 되었다. 프로젝트 기획개요🌈 ‘쿠팡플레이’의 데이터 분석가인 저희는 8월에 새롭게 런칭할 영화를 알고 싶다는 사업팀의 요청을 받았습니다.TMDB 데이터 시각화를 통해 Tableau 대시보드 제작 능력을 기르는 것을 목표로 합니다.TMDB 데이터 셋을 사용하여 흥행 작품, 국가별 선호도, ROI 등을 분석하고 다음 신규 컨텐츠 제작 시 참고할 수 있는 대시보드를 제공하..
심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측🤖 머신러닝 : 하이퍼파라미터 조정이 부분은 직접 진행하지 않았지만, 약간 요약해서 적어두겠음..!앞의 변수 선택 단계에서 성능이 가장 좋았던 model_rf7과 model_xgb7 두가지를 선택해 하이퍼파라미터를 조정해보았다. 랜덤포레스트 뿐 아니라 Xgboost도 함께 진행한 이유는 더 다양한 경우의 수를 살펴보기 위해서였다.rf8단계에서 랜덤서치 결과인 최적화한 파라미터 사용시 전반적으로 성능이 크게 저하되었다. → 따라서 파라미터를 조정하지 않은 rf7을 xgboost의 best model과 비교하기로 했다.Xgb 8에서 그리드 서치 결과를 반영해 max_depth & n_estimators를 조정했다. 그 영향으로 비약적인 성능 상승이 ..
ny:D
'Project' 태그의 글 목록