ML

심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측🤖 머신러닝 : 하이퍼파라미터 조정이 부분은 직접 진행하지 않았지만, 약간 요약해서 적어두겠음..!앞의 변수 선택 단계에서 성능이 가장 좋았던 model_rf7과 model_xgb7 두가지를 선택해 하이퍼파라미터를 조정해보았다. 랜덤포레스트 뿐 아니라 Xgboost도 함께 진행한 이유는 더 다양한 경우의 수를 살펴보기 위해서였다.rf8단계에서 랜덤서치 결과인 최적화한 파라미터 사용시 전반적으로 성능이 크게 저하되었다. → 따라서 파라미터를 조정하지 않은 rf7을 xgboost의 best model과 비교하기로 했다.Xgb 8에서 그리드 서치 결과를 반영해 max_depth & n_estimators를 조정했다. 그 영향으로 비약적인 성능 상승이 ..
심화프로젝트 : 회귀분석을 활용한 월마트 주간 판매량 예측🎯 모델링 평가 지표 설정모델링 지표로 사용한 것은 (1) R-squared, (2) RMSE 그리고 마지막으로 (3) WMAE를 설정했다. WMAE는 Kaggle에 나와있는 평가지표인 WMAE를 참고한 지표로, Holiday를 더욱 정확하게 예측하기 위해 해당 지표를 사용했다. Holiday 주간인 경우 가중치(w)를 5로, 아닌 경우 가중치를 1로 하여 계산을 진행했다. 🤖 머신러닝 초기 모델링앞서 선택된 변수들을 바탕으로 선형회귀모형(Linear Regressior)과 세가지 앙상블 기법 (Gradient Boosting Regressor, 랜덤포레스트, Xgboost)을 활용해 피팅 및 평가를 진행했다.모델링 결과 변수를 위와 같이 선택..
240614 Today I Learn클러스터링이란?💡 클러스터링데이터분석에서 피쳐(컬럼) 유사성의 개념을 기반으로 전체데이터셋을 그룹으로 나누는 기법. (이때, 각 그룹을 클러스터라고 한다.)→ 데이터분석가는 방대하게 구축된 DB에서 의미있는 특징(컬럼)을 찾고,최적의 그룹 개수를 찾아 그룹별 인사이트를 도출하는 역할을 수행하게 된다. 클러스터링 프로세스전처리 프로세스1. 기간선정 : 클러스터링을 위한 데이터 기간을 설정 최소 3개월 이상의 데이터셋이 권장 → 주별/ 월별 이벤트/서비스 진행. 따라서 이러한 특성을 한달만 보고 판단하기는 어려움. 클러스터링의 목적 :  live 한 데이터의 유입시 해당 유저의 행동을 통해, 이를 알맞게 배치시키는 모델의 생성→  서비스 변동사항에 따라서 일정 주기에 따..
라이브러리 불러오기# 기본 라이브러리 불러오기import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns베이직 문항1. Iris 데이터셋에서 Logistic Regression 분류Iris 데이터셋을 사용하여 Logistic Regression 모델을 학습시키고, 정확도(accuracy)를 계산하세요풀이과정데이터 불러오기test, train 데이터 나누기💡 train_test_split에서 stratify의 역할클래스의 분포 비율을 맞춰서 데이터를 나눠준다.→ stratify 유무에 따라 accuracy에 차이가 있다. 교차검증 정확도가 1인 것 보다는 , 0.933이 더 신뢰가능한 수준이라고 판단해 s..
240612 Today I Learn딥러닝 이론머신러닝 vs. 딥러닝💡 머신러닝과 딥러닝은 모두 데이터로부터 가중치를 학습하여 패턴을 인식하고 결정을 내리는 알고리즘 개발과 관련된 인공지능(AI)의 하위 분야이다.머신러닝: 데이터 안의 통계적 관계를 찾아내며 예측이나 분류류를 하는 방법딥러닝: 머신러닝의 한 분야로 신경세포 구조를 모방한 인공 신경망*을 사용함.* 인공신경망 : 인간의 신경세포를 모방하여 만든 망(Networks). 인공신경망의 가장 작은 단위를 퍼셉트론이라고 한다.Gradient Descent💡 경사 하강법(Gradient Descent)인공신경망 오차함수의 최솟값*을 찾아가는 최적화 기법회귀 문제의 경우 가중치(weight)를 이리 저리 움직이면서 최소의 MSE를 도출하는 것.함수..
240612 Today I Learn머신러닝머신러닝 알고리즘의 종류지도 학습 (Supervised Learning)비지도 학습 (Unservised Learning)강화 학습 (Reinforcement Learning)머신러닝 모델  성능 평가 지표정확도 Accuracy = (True Positive +True Negative)/TotalAccuracy 가 만능일 수 없는 이유어떤 회사에서 100명중 2명을 암환자로 예측하는 모델을 만들고 싶을 때, accuracy를 가장 높게 할 수 있는 방법은 무엇일까?바로 100명의 환자를 모두 암환자라고 분류하는 모델을 만드는 것이다. 100명의 환자를 모두 암환자로 분류하는 모델의 정확도는 무려 98%가 된다. 그렇다면 이 회사는 '저희 모델은 98%의 정확도로..
ny:D
'ML' 태그의 글 목록