머신러닝의 이해와 라이브러리 활용 (7) 딥러닝

📒 Today I Learn/🐍 Python

머신러닝의 이해와 라이브러리 활용 (7) 딥러닝

ny:D 2024. 6. 13. 15:42

240612 Today I Learn

딥러닝 이론

머신러닝 vs. 딥러닝

💡 머신러닝과 딥러닝은 모두 데이터로부터 가중치를 학습하여 패턴을 인식하고 결정을 내리는 알고리즘 개발과 관련된 인공지능(AI)의 하위 분야이다.

머신러닝: 데이터 안의 통계적 관계를 찾아내며 예측이나 분류류를 하는 방법
딥러닝: 머신러닝의 한 분야로 신경세포 구조를 모방한 인공 신경망*을 사용함.
* 인공신경망 : 인간의 신경세포를 모방하여 만든 망(Networks). 인공신경망의 가장 작은 단위를 퍼셉트론이라고 한다.

Gradient Descent

💡 경사 하강법(Gradient Descent)
인공신경망 오차함수의 최솟값*을 찾아가는 최적화 기법
회귀 문제의 경우 가중치(weight)를 이리 저리 움직이면서 최소의 MSE를 도출하는 것.

함수의 각 지점에서 함수의 값을 낮추는 방안을 제시하는 지표 → 기울기
현 위치에서 기울어진 방향으로 일정 거리만큼 이동, 이동한 위치에서도 기울기를 계산해 기울어진 방향으로 나아가는 단계를 반복하며 함수의 최솟값을 찾아감.

활성화 함수

💡 활성화 함수
인공 신경망에서 입력을 변환하는 함수. 입력신호의 선형합을 입력받아 최종적으로 신호의 강도를 계산한다.
필터 커널을 이용해 컨볼루션 계산이 완료되면 각 픽셀에 있는 데이터를 활성화 함수에 적용해 판별력 있게 만든다.

Hidden Layer

💡 히든 레이어
데이터를 비선형적으로 변환함과 동시에 데이터의 고차원적 특성(ex 이미지, 자연어)을 학습하기 위해 중간에 입력과 결과 외의 추가하게 되는 숨은 층

히든 레이어를 추가할 수록 더 좋은 모델이 나올 줄 알았으나, 인공신경망의 학습 과정 때문에 실제로는 기울기 소실 문제*가 발생

❓ 기울기 소실 문제
경사 감소법을 이용해 에러를 역전파 하는 과정에서 경사도가 급감하는 문제. 출력층으로부터 하나씩 앞으로 되돌아가며 각 층의 가중치를 수정(오차 역전파)할 때 미분값(즉, 기울기)이 필요하다. 그런데, 층이 늘어나면서 기울기가 중간에 0이 되어버리는 기울기 소실문제가 발생될 수 있다. 이는 활성화 함수로 사용된 시그모이드 함수의 특성 때문인데, 1보다 작은 수를 계속 곱하면 0에 가까워지기 때문에 층을 거쳐 갈수록 기울기가 사라져 가중치를 수정하기 어려워 진다.
→ 특정 활성화 함수(ex Relu)를 통해 완화 하게 된다.

💡 Epoch
전체 데이터가 신경망을 통과하는 한 번의 사이클
Epoch = batch size * iteration

batch: 전체 훈련 데이터 셋을 일정한 크기의 소 그룹으로 나눈 것

iteration: 전체 훈련 데이터 셋을 여러 개(=batch)로 나누었을 때 배치가 학습되는 횟수

딥러닝 실습 - Tensorflow

라이브러리 및 데이터 불러오기

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
import numpy as np
from sklearn.preprocessing import StandardScaler


weights = np.array([87,81,82,92,90,61,86,66,69,69])
heights = np.array([187,174,179,192,188,160,179,168,168,174])

단일 레이어 회귀 딥러닝

# Sequential 모델 초기화
model = Sequential()

#단일을 추가하기

dense_layer = Dense(units= 1, input_shape=[1])
model.add(dense_layer)
model.compile(optimizer='adam', loss = 'mean_squared_error')

model.summary()
model.fit(weights, heights, epochs = 100)

💡 input_shape 설정 팁
input shape은 결국 모델에 넣으려고 하는 데이터의 feature의 개수를 일컫는다. 때문에 input_shape = data.shape[-1]로 지정해주면 데이터의 feature수에 맞게 지정이 된다.

히든 레이어 추가 회귀 딥러닝

총 3개의 dense 레이어 사용 → feature의 개수가 총 3개
output 레이어가 1로 회귀하고, loss 가 mean_squared_erro이므로 회귀 딥러닝이라고 볼 수 있다.

## Hidden Layer를 포함한 아키텍처

model2 = Sequential()

model2.add(Dense(units=64, activation = 'relu', input_shape = [1]))
model2.add(Dense(units=64, activation = 'relu'))
model2.add(Dense(units= 1))

model2.compile(optimizer='adam', loss = 'mean_squared_error')

model2.summary()
model2.fit(weights, heights, epochs = 100, batch_size= 10 )

딥러닝 활용 사례

자연어처리

💡 자연어 처리
인간의 언어를 데이터화 하는 것

이미지

이미지는 RGB 256개의 데이터로 이루어진 데이터의 집합이다.

💡 Stable Diffusion(2022)
2022년에 발표된 text-to-image Mutimodal 이미지모델