머신러닝의 이해와 라이브러리 활용 (6) 비지도학습

📒 Today I Learn/🐍 Python

머신러닝의 이해와 라이브러리 활용 (6) 비지도학습

ny:D 2024. 6. 11. 23:19

240611 Today I Learn

비지도 학습

💡 비지도학습
답을 알려주지 않고 공부시키는 방법
- 연관규칙
- 군집화

K-Means Clustering

💡 K-Means Clustering
주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다.

장점 : 일반적이고 적용하기 쉬움
단점
- 거리 기반으로 가까움을 측정하기 때문에 차원이 많을 수록 정확도가 떨어짐
- 반복 횟수가 많을 수록 시간이 느려짐
- 몇 개의 군집(K)을 선정할지 주관적임
- 평균을 이용하기 때문에(중심점) 이상치에 취약함

좋은 군집화란?

실루엣 값이 높을수록(1에 가까움)
개별 군집의 평균 값의 편차가 크지 않을 수록 좋은 군집화이다.

군집화 실습 - iris

데이터 및 라이브러리를 불러오기

# 기본 라이브러리
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# seaborn iris 데이터 불러오기
iris = sns.load_dataset('iris')

# label(이 경우 species)이 없는 데이터 프레임 만들기 -> 군집화용
iris2 = iris.copy()
iris2 = iris2.drop('species',axis=1)

K-Means Clustering

sklearn.cluster.KMeans

함수 입력 값

n_cluster: 군집화 갯수 → 지정해 줘야함. (계속 바꿔가면서 실험)

max_iter: 최대 반복 횟수 → 얼마나 군집화를 반복해볼 것인지

메소드

labels_: 각 데이터 포인트가 속한 군집 중심점 레이블

cluster_centers: 각 군집 중심점의 좌표

# 라이브러리 불러오기
from sklearn.cluster import KMeans

# KMeans(n_clusters = 군집수, init = array shape)
kmeans = KMeans(n_clusters = 3, init = 'k-means++', max_iter = 300, random_state= 42)

# fitting
kmeans.fit(iris2)

Original vs. K-Means

plt.figure(figsize = (12,6))
plt.subplot(1,2,1)
sns.scatterplot(data=iris, x='sepal_length', y='sepal_width', hue='species', palette = 'husl')
plt.title('Original')

plt.subplot(1,2,2)
sns.scatterplot(data = iris2, x = 'sepal_length', y = 'sepal_width', hue = 'cluster', palette= 'pastel')
plt.title('Clustering')
plt.show()

→ original과 거의 비슷하게 clustering된것을 확인할 수 있다.

군집화 평가 지표

💡 실루엣 계수
각 데이터 포인트와 주위 데이터 포인트들과의 거리 계산(유클리드)을 통해 값을 구하며, 군집 안에 있는 데이터들은 잘 모여있는지, 군집끼리는 서로 잘 구분되는지 클러스터링을 평가하는 척도로 활용된다.

실루엣 계수가 1에 가까울수록 근처의 군집과 더 멀리 떨어지고,
0에 가까울 수록 근처 군집과 가까워 진다는 것을 의미한다.

실습 - RFM 고객 세그멘테이션

💾 활용 데이터셋

retail = pd.read_excel('Online Retail.xlsx')

데이터 전처리

결측치 & 이상치 처리

# 데이터 전처리
# customer id 결측치 삭제
cond1 = (retail['CustomerID'].notnull())

# invoice가 c로 시작되거나 
cond2 = (retail['InvoiceNo'].astype(str).str[0] != 'C')

# quantity가 음수이거나
cond3 = retail['Quantity']>0

# unit price가 음수인 것은 모두 삭제
cond4 = retail['UnitPrice']>0

retail2 = retail[cond1 & cond2 & cond3 & cond4]

CustomerID 결측치 삭제
invoice가 c로 시작되거나, quantity가 음수이거나, unit price가 음수인 것은 모두 삭제

영국 데이터만 선택

retail2['Country'].value_counts()[:10] → cond5 적용 후 retail2.value_counts()

cond5 = (retail2['Country']=='United Kingdom')
retail2 = retail2[cond5]

RFM 세그멘테이션

통계야 놀자 (4) 지도학습과 비지도학습

240611 Today I Learn지도학습 vs. 비지도학습 지도 학습비지도 학습목표새로운 데이터의 결과를 예측많은 양의 새로운 데이터에 대한 통찰력을 얻는 것사용 데이터레이블이 지정된 데이터세트레이

archivenyc.tistory.com

RFM 계산 준비작업

# Recency 계산하기
import datetime as dt

# 2011.12.10일 기준으로 각 날짜를 빼고 + 1
# 추후 CustomerID 기준으로 Period의 최소의 Period를 구하면 그것이 Recency
# 1번사람 100일전, 20일전, 5일전

retail2['Period'] = (dt.datetime(2011,12,10) - retail2['InvoiceDate']).apply(lambda x: x.days+1)

# Amount : Quantity(수량) * Price(가격)
retail2['Amount'] = retail2['Quantity'] * retail2['UnitPrice']

# Amount를 정수형으로 변환
retail2['Amount'] = retail2['Amount'].astype('int')

Recency(방문수) 계산 위해 기준일(2011/12/10) Period 계산
Monetary(얼마나 썼는지) 계산 위해 주문별 사용 금액 계산 후 이를 정수형으로 변경

RFM 데이터 프레임

# customerId 기준 RFM df 생성
rfm_retail = retail2.groupby('CustomerID').agg({
                                                'Period': 'min',
                                                'InvoiceNo':'count',
                                                'Amount':'sum'
                                                })
# 컬럼명을 R, F, M 으로 설정
rfm_retail.columns = ['Recency','Frequency','Monetary']

RFM 각각의 feature를 그래프로 표현해보기

plt.figure(figsize = (18,6))
plt.subplot(1,3,1)
sns.histplot(rfm_retail['Recency'])
plt.title('Recency')

plt.subplot(1,3,2)
sns.histplot(rfm_retail['Frequency'])
plt.title('Frequency')

plt.subplot(1,3,3)
sns.histplot(rfm_retail['Monetary'])
plt.title('Monetary')

분포가 다르나 세 feature 모두 right skewed되어있는 것을 확인할 수 있다.
따라서 아래와 같이 데이터를 정규화 했다.

# 데이터정규화
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_features = sc.fit_transform(rfm_retail[['Recency','Frequency','Monetary']])

실루엣 계수로 평가하기

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

kmeans = KMeans(n_clusters = 3, random_state = 42)
labels = kmeans.fit_predict(X_features)
rfm_retail['label'] = labels

silhouette_score(X_features, labels)
## 0.592575402996014

→ 실루엣 계수가 좋은 수치인지 알아보기 위해 여러개의 군집 개수를 list로 입력받아 각각의 실루엣 계수를 면적으로 시각화해보자.

### 여러개의 클러스터링 갯수를 List로 입력 받아 각각의 실루엣 계수를 면적으로 시각화한 함수 작성
def visualize_silhouette(cluster_lists, X_features): 
    
    from sklearn.cluster import KMeans
    from sklearn.metrics import silhouette_samples, silhouette_score

    import matplotlib.pyplot as plt
    import matplotlib.cm as cm
    import numpy as np
    
    # 입력값으로 클러스터링 갯수들을 리스트로 받아서, 각 갯수별로 클러스터링을 적용하고 실루엣 개수를 구함
    n_cols = len(cluster_lists)
    
    # plt.subplots()으로 리스트에 기재된 클러스터링 수만큼의 sub figures를 가지는 axs 생성 
    fig, axs = plt.subplots(figsize=(4*n_cols, 4), nrows=1, ncols=n_cols)
    
    # 리스트에 기재된 클러스터링 갯수들을 차례로 iteration 수행하면서 실루엣 개수 시각화
    for ind, n_cluster in enumerate(cluster_lists):
        
        # KMeans 클러스터링 수행하고, 실루엣 스코어와 개별 데이터의 실루엣 값 계산. 
        clusterer = KMeans(n_clusters = n_cluster, max_iter=500, random_state=0)
        cluster_labels = clusterer.fit_predict(X_features)
        
        sil_avg = silhouette_score(X_features, cluster_labels)
        sil_values = silhouette_samples(X_features, cluster_labels)
        
        y_lower = 10
        axs[ind].set_title('Number of Cluster : '+ str(n_cluster)+'\n' \
                          'Silhouette Score :' + str(round(sil_avg,3)) )
        axs[ind].set_xlabel("The silhouette coefficient values")
        axs[ind].set_ylabel("Cluster label")
        axs[ind].set_xlim([-0.1, 1])
        axs[ind].set_ylim([0, len(X_features) + (n_cluster + 1) * 10])
        axs[ind].set_yticks([])  # Clear the yaxis labels / ticks
        axs[ind].set_xticks([0, 0.2, 0.4, 0.6, 0.8, 1])
        
        # 클러스터링 갯수별로 fill_betweenx( )형태의 막대 그래프 표현. 
        for i in range(n_cluster):
            ith_cluster_sil_values = sil_values[cluster_labels==i]
            ith_cluster_sil_values.sort()
            
            size_cluster_i = ith_cluster_sil_values.shape[0]
            y_upper = y_lower + size_cluster_i
            
            color = cm.nipy_spectral(float(i) / n_cluster)
            axs[ind].fill_betweenx(np.arange(y_lower, y_upper), 0, ith_cluster_sil_values, \
                                facecolor=color, edgecolor=color, alpha=0.7)
            axs[ind].text(-0.05, y_lower + 0.5 * size_cluster_i, str(i))
            y_lower = y_upper + 10
            
        axs[ind].axvline(x=sil_avg, color="red", linestyle="--")

from kmeans_visaul import visualize_silhouette
visualize_silhouette([2,3,4,5,6], X_features)

cluster의 수가 2일때보다 5일때 실루엣 계수가 크다.
그러나 아래 면적 그래프를 보면 cluster가 5일때 best가 아니라는 것을 알 수 있다.
- cluster = 5인 경우 5개 군집의 면적이 고르게 분포되지 않았다.
- 상위 3개의 군집의 경우 아주 적은 면적을 차지하고 있으며, 이는 일부 이상치에 의해 결과가 왜곡되고 있음을 나타내는 것이다.
- 따라서 아래와 같이 log 스케일을 이용해 추가 전처리 과정을 진행했다.

#log 스케일을 통한 추가전처리
import numpy as np

rfm_df['Recency_log'] = np.log1p(rfm_df['Recency'])
rfm_df['Frequency_log'] = np.log1p(rfm_df['Frequency'])
rfm_df['Monetary_log'] = np.log1p(rfm_df['Monetary'])

X_features2 = rfm_df[['Recency_log','Frequency_log','Monetary_log']]
sc2 = StandardScaler()
X_features2_sc = sc2.fit_transform(X_features2)

visualize_silhouette([2,3,4,5,6], X_features2_sc)

정규화만 진행했을 때에 비해 비교적 고르게 cluster별 면적이 나뉘어있는 것을 확인할 수 있다.
실루엣 계수는 낮아졌지만, 군집이 비교적 고르게 나뉘었다.