ML

240611 Today I Learn비지도 학습 💡 비지도학습답을 알려주지 않고 공부시키는 방법- 연관규칙- 군집화 K-Means Clustering💡 K-Means Clustering주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다.장점 : 일반적이고 적용하기 쉬움단점거리 기반으로 가까움을 측정하기 때문에 차원이 많을 수록 정확도가 떨어짐반복 횟수가 많을 수록 시간이 느려짐몇 개의 군집(K)을 선정할지 주관적임평균을 이용하기 때문에(중심점) 이상치에 취약함좋은 군집화란?실루엣 값이 높을수록(1에 가까움)개별 군집의 평균 값의 편차가 크지 않을 수록 좋은 군집화이다.군집화 실습 - iris데이터 및 라이브러리를 불러오기# 기본 라이브러..
240610 Today I Learn의사결정나무와 랜덤 포레스트더보기# 라이브러리 및 데이터 불러오기import pandas as pdimport matplotlib.pyplot as plttitanic = pd.read_csv('TITANIC/train.csv')# 전처리#Pclass: LabelEncoderfrom sklearn.preprocessing import LabelEncoderle1 = LabelEncoder()titanic['Pclass'] = le1.fit_transform(titanic['Pclass'])#Sex: LabelEncoderle2 = LabelEncoder()titanic['Sex'] = le2.fit_transform(titanic['Sex'])#Age: 결측치-> 평균..
240607 Today I Learn데이터 수집데이터 수집 프로세스Data SourceOLTP Database: OnLine Transaction Processing 은 온라인 뱅킹,쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위) 처리 유형Enterprise Applications: 회사 내 데이터 (ex 고객 관계 데이터, 제품 마케팅 세일즈)Third - Party: Google Analytics와 같은 외부소스에서 수집되는 데이터Web/Log: 사용자의 로그데이터ETL(Extract, Transform, and Load) : 다양한 소스의 데이터를 데이터 웨어하우스에 결합하는 과정Data Lake: 원시 형태의 다양한 유형의 데이터를 저장Data Warehouse: ..
240604 Today I Learn로지스틱 회귀 이론💡 로지스틱 회귀독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법으로 가중치 값을 안다면 X값이 주어졌을 때 해당 사건이 일어날 수 있는 P의 확률을 계산한다. 이때, 확률 0.5를 기준으로 그보다 높으면 사건이 일어남(P(Y) = 1), 그렇지 않으면 사건이 일어나지 않음(P(Y) = 0)으로 판단하여 분류 예측에 사용한다.로짓의 경우 어떤 값을 가지더라도 반드시 특정 사건이 일어날 확률을 0~1로 만들어준다.로짓은 다음과 같이 해석된다.→ X의 값이 1만큼 증가할 때, 오즈비는 e의 w1승 만큼 증가한다.분류 평가지표💡 정확도 (Accuracy)전체 중 예측이 실제 값과 같을 경우 (참인 경우 참으로, 거..
240604 Today I Learn다중선형회귀💡 다중 선형회귀(Multiple Linear Regression)설명 변수(독립변수)가 두 개 이상인 회귀 분석다중선형 회귀 실습🙋‍♀️ 머신이는 데이터 선형회귀를 훈련 시켰지만 성능이 별로 좋지 않다는 것을 알게 되었습니다. 그래서 성별과 같은 다른 데이터를 사용하고 싶어졌습니다. 1. 성별데이터는 문자형이여서 숫자로 표현해줘야 합니다.# 1. male(1), female(0)으로 변환하기def encode_gender(series): if series == 'Female': return 0 else: return 1 # apply를 활용해 sex 컬럼의 모든 행에 encode_gender를 적용합니다...
240603 Today I Learn머신러닝이란?💡 머신러닝(Machine Learning, ML)관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘. 기술 통계 등을 통하여 집계된 정보로 의사결정을 했던 과거와 달리 데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론.머신러닝의 종류지도학습 : 문제와 정답을 모두 알려주고 공부시키는 방법예측분류비지도학습 : 답을 알려주지 않고 공부시키는 방법연관규칙군집강화학습 : 보상을 통해 상은 최대화, 벌은 최소화 하는 방향으로 행위를 강화선형회귀분석 이론💡선형회귀(Linear Regression)종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법..