머신러닝의 이해와 라이브러리 활용 (3) 로지스틱 회귀

ny:D 2024. 6. 4. 21:29

240604 Today I Learn

로지스틱 회귀 이론

💡 로지스틱 회귀
독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법으로 가중치 값을 안다면 X값이 주어졌을 때 해당 사건이 일어날 수 있는 P의 확률을 계산한다. 이때, 확률 0.5를 기준으로 그보다 높으면 사건이 일어남(P(Y) = 1), 그렇지 않으면 사건이 일어나지 않음(P(Y) = 0)으로 판단하여 분류 예측에 사용한다.

로짓의 경우 어떤 값을 가지더라도 반드시 특정 사건이 일어날 확률을 0~1로 만들어준다.
로짓은 다음과 같이 해석된다.
→ X의 값이 1만큼 증가할 때, 오즈비는 e의 w1승 만큼 증가한다.

분류 평가지표

💡 정확도 (Accuracy)
전체 중 예측이 실제 값과 같을 경우 (참인 경우 참으로, 거짓인 경우 거짓으로 예측이 된 경우 → TP / TN)

Y값이 unbalance한 경우 제 기능을 하지 못함
Y 범주의 비율을 맞춰주거나 평가 지표를 f1 score을 사용해 이를 보완함
`from sklearn.metrics import accuracy_score`를 사용

💡 F1 - Score
정밀도와 재현율의 조화 평균
가능한 가장 높은 값은 1.0으로 완벽한 정밀도와 재현율을 나타내며, 가능한 가장 낮은 값은 정밀도나 재현율이 0인 경우 0이다.

하나의 측정 항목에서 정밀도와 재현율을 대칭적으로 나타냄
`from sklearn.metrics import f1_score` 사용해 계산

로지스틱 회귀 실습 - 타이타닉 생존문제

🧮 사용 함수

# attribute를 출력하는 함수
def get_att(x):
    #x모델을 넣기
    print(f'클래스 종류 : {x.classes_}')
    print(f'독립변수 {x.n_features_in_}개')
    print(f'들어간 독립변수(x)의 이름 {x.feature_names_in_}')
    print(f'coef : {x.coef_}')
    print(f'bias : {x.intercept_}')

# 모델 평가
def get_metrics(true, pred):
    print(f'정확도 : {accuracy_score(true, pred):.4f}')
    print(f'f1-score : {f1_score(true, pred) :.4f}')
    
    
# 내가 만든..? 함수
def get_metrics(model, X, y_true):
    model.fit(X, y_true)
    pred = model.predict(X)
    print(f'정확도 : {accuracy_score(y_true, pred):.4f}')
    print(f'f1-score : {f1_score(y_true, pred) :.4f}')

1차 모델: Fare

# 함수 불러오기 및 모델에 구조 넣기
from sklearn.linear_model import LogisticRegression
model_lor = LogisticRegression()

# 변수 지정
# X변수: Fare, Y변수: Survived
X1 = titanic[['Fare']]
y_true = titanic[['Survived']]

# 모델 적합
model_lor.fit(X1, y_true)

2차 모델: Pclass, Sex, Fare

# 모델에 구조 넣기
model_lor_2 = LogisticRegression()

#Y(Surivved): 사망
#X(수치형): Fare
#X(범주형): Plcass(좌석등급), Sex

# 성별의 경우 범주형 변수이나 더미변수로 인코딩이 필요
# 문자형 -> 더미변수로 바꾸기
def get_sex(x):
    if x == 'female':
        return 0
    else:
        return 1
titanic['Sex_enc'] = titanic['Sex'].apply(get_sex)

# 변수 지정
X2 = titanic[['Pclass','Sex_enc','Fare']]
y_true2 = titanic['Survived']

# 모델 적합
model_lor_2.fit(X2,y_true2)

1차모델 vs. 2차모델

1차모델보다 2차모델의 정확도와 F1-score가 눈에 띄게 높다 → 2차 모델이 1차 모델보다 좋은 모델이다.

# X변수가 Fare
get_att(model_lor)
get_metrics(model_lor, X1, y_true)

# X변수가 Fare, Pclass, Sex
get_att(model_lor_2)
get_metrics(model_lor_2, X2, y_true2)

predict vs. predict_proba

predict는 적합된 모델을 기반으로 예측값을 구하고, predict_proba는 적합된 모델을 기반으로 P(Y=0)과 P(Y=1) 값을 출력한다. 다시말해, predict_proba에서는 한 값에 대해 두개의 값이 출력되는데, 확률이 더 높은 쪽의 Y값이 predict에서 출력된다고 볼 수 있다.

# 적합된 모델을 기반으로 예측값을 구하기
model_lor_2.predict(X2)

# 각 데이터별 Y=1인 확률 뽑아내기(생존할 확률)
model_lor_2.predict_proba(X2)

선형 회귀 vs. 로지스틱 회귀

	선형회귀 (예측)	로지스틱 회귀 (분류)
공통점	1. 모델 생성이 쉬움 2. 가중치(혹은 회귀계수)를 통한 해석이 쉬운 장점이 있음 3. X변수에 범주형, 수치형 변수 둘 다 사용 가능
Y(종속변수)	수치형	범주형
평가척도	Mean Square Error R Square	Accuracy F1 - score
sklearn 모델 클래스	sklearn.linear_model.linearRegression	sklearn.linear_model.LogistricRegression
sklearn 평가 클래스	sklearn.metrics.mean_squared_error, skelarn.metrics.r2_score	sklearn.metrics.accuracy_score, skelearn.metrics.f1_score

머신러닝의 이해와 라이브러리 활용 (3) 로지스틱 회귀

240604 Today I Learn

로지스틱 회귀 이론

분류 평가지표

로지스틱 회귀 실습 - 타이타닉 생존문제

1차 모델: Fare

2차 모델: Pclass, Sex, Fare

1차모델 vs. 2차모델

predict vs. predict_proba

선형 회귀 vs. 로지스틱 회귀

predict vs. predict_proba