240612 Today I Learn
๋จธ์ ๋ฌ๋
๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ข ๋ฅ
- ์ง๋ ํ์ต (Supervised Learning)
- ๋น์ง๋ ํ์ต (Unservised Learning)
- ๊ฐํ ํ์ต (Reinforcement Learning)
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ ์งํ
- ์ ํ๋ Accuracy = (True Positive +True Negative)/Total
Accuracy ๊ฐ ๋ง๋ฅ์ผ ์ ์๋ ์ด์
์ด๋ค ํ์ฌ์์ 100๋ช ์ค 2๋ช ์ ์ํ์๋ก ์์ธกํ๋ ๋ชจ๋ธ์ ๋ง๋ค๊ณ ์ถ์ ๋, accuracy๋ฅผ ๊ฐ์ฅ ๋๊ฒ ํ ์ ์๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ผ๊น?
๋ฐ๋ก 100๋ช ์ ํ์๋ฅผ ๋ชจ๋ ์ํ์๋ผ๊ณ ๋ถ๋ฅํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ด๋ค. 100๋ช ์ ํ์๋ฅผ ๋ชจ๋ ์ํ์๋ก ๋ถ๋ฅํ๋ ๋ชจ๋ธ์ ์ ํ๋๋ ๋ฌด๋ ค 98%๊ฐ ๋๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด ํ์ฌ๋ '์ ํฌ ๋ชจ๋ธ์ 98%์ ์ ํ๋๋ก ์ํ์๋ฅผ ์์ธกํฉ๋๋ค.'๋ผ๊ณ ์ด์ผ๊ธฐ ํ ์ ์์๊น?
98%๋ผ๋ ์์น๋ง ๋ณด๋ฉด ์ด ํ์ฌ๊ฐ ์์ฒญ๋ ๋ชจ๋ธ์ ๊ฐ๋ฐํ ๊ฒ ๊ฐ์ง๋ง, ๋ชจ๋ ํ์๋ฅผ ์ํ์๋ผ๊ณ ํ์ ํ๋ ๋ชจ๋ธ์ด ๊ณผ์ฐ ์ํ์์ธ์ง ์๋์ง ๊ตฌ๋ถํ ์ ์๋ ๋ชจ๋ธ์ธ๊ฐ? ๊ทธ๋ ์ง ์๋ค.
- ๋ฏผ๊ฐ๋ Precision
- (positive) = (True Positive) / (Predicted Positive) = TP/(TP+FP)
- (negative) = (True Negative) / (Predicted Negative) = TN/(TN+FN)
- ์ฌํ์จ Positive Recall (Sensitivity) = True Positive Rate = Sensitivity = TP/(TP+FN)
- ํน์ด๋ Negative Recall (Specificity) = True Negative Rate = Specificity = TN/(TN+FP)
- F ์ค์ฝ์ด F-measure (positive) = 2 x Precision x Recall = 2 x TP Precision + Recall 2 x TP + FP + FN
๐ก ๊ต์ฐจ ๊ฒ์ฆ(Cross Validation)
๋ฐ์ดํฐ๋ฅผ ํ์ต ์ธํธ์ ํ ์คํธ ์ธํธ๋ก ๋๋๊ณ , ํ์ต ์ธํธ์์ ๋ชจ๋ธ์ ํ์ต์ํจ ๋ค์, ํ ์คํธ ์ธํธ์์ ๋ชจ๋ธ์ ํ๊ฐํ๋ ๊ณผ์
- ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ์ ํํ๊ธฐ
- ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ์ด๋ฉด์
- ๋ชจ๋ธ์ ํด์ ๊ฐ๋ฅ์ฑ, ๋ณต์ก์ฑ ๋ฐ ๊ณ์ฐ ๋น์ฉ๊ณผ ๊ฐ์ ๋ค๋ฅธ ์์๋ ๊ณ ๋ คํด์ผ ํ๋ค.
๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ
White box vs. Gray box vs. Black box ๋ชจ๋ธ
- White box : ํด์ ๊ฐ๋ฅํ ํผ์ณ๋ค์ ์ด์ฉํด ๋ ๋ง์ ์ธ์ฌ์ดํธ๋ฅผ ์ป์ด ๋ชจ๋ธ์์ ์ด๋ค ์ผ๋ค์ด ๋ฒ์ด์ง๊ณ ์๋์ง ์ฝ๊ฒ ์ดํดํ ์ ์์.
- Gray box (white + black) : ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋ด๋ถ ์๋์ ๋ถ๋ถ์ ์ผ๋ก ๊ด์ฐฐ๊ฐ๋ฅ
- Black box: ๋ชจ๋ธ์ด ๋ด๋ถ์ ์ผ๋ก ์ด๋ป๊ฒ ์๋ํ๋์ง ๊ด์ฐฐํ๊ฑฐ๋ ์ดํดํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์
KNN(K-Nearest Neighbors)
๐ก KNN
๋ฐ์ดํฐ๋ฅผ ์ฃผ๋ณ์ K๊ฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ฐ์ดํฐ๋ค์ ๋ฒ์ฃผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ธกํ๋ ๊ธฐ๋ฒ. ์๋ก์ด ๋ฐ์ดํฐ์ ๊ฐ์ฅ ์ ์ฌํ K๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์๊ฐ๋ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ์ผ๋ก, ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ ๋งจํํ ๊ฑฐ๋ฆฌ ๋ฑ์ ๊ฑฐ๋ฆฌ ์ธก์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
- ์๋ ๋จ๊ณ
- ๋ฐ์ดํฐ ์ค๋น
- ๊ฑฐ๋ฆฌ ๊ณ์ฐ
- ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ - ๋ ์ ์ฌ์ด์ ์ง์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ํ๋ฉด์ด๋ ๊ณต๊ฐ์์ ๋ ์ ์ฌ์ด์ ๊ฐ์ฅ ์งง์ ๊ฒฝ๋ก๋ฅผ ๋ํ๋ธ๋ค.
- ๋งจํํ ๊ฑฐ๋ฆฌ - ์ขํ์ ํ์๋ ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ(์ ๋๊ฐ)์ ์ฐจ์ด์ ๋ฐ๋ฅธ ์๋ก์ด ๊ฑฐ๋ฆฌ
- ๊ณ์ฐ๋ ๊ฑฐ๋ฆฌ ์ค ๊ฐ์ฅ ๊ฐ๊น์ด K๊ฐ์ ์ด์์ ์ ํ
- ์ ํ๋ K๊ฐ์ ์ด์ ์ค ๊ฐ์ฅ ๋ง์ ๋ฒ์ฃผ๋ฅผ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ฒ์ฃผ๋ก ํ ๋น
- ์ฌ์ฉ ๋ผ์ด๋ธ๋ฌ๋ฆฌ - sklearn.neighbors.KNeighborsClassifier
๋์ด๋ธ ๋ฒ ์ด์ฆ (Naive Bayes)
๐ก ๋์ด๋ธ ๋ฒ ์ด์ฆ (Naive Bayes)
ํ๋ฅ ๊ธฐ๋ฐ ๋ถ๋ฅ ๊ธฐ๋ฒ์ผ๋ก, ๋ ๋ฆฝ ๋ณ์ ๊ฐ์ ๋ ๋ฆฝ์ฑ์ ๊ฐ์ ํ์ฌ ํ๋ฅ ์ ๊ณ์ฐํ๋ ๋ถ๋ฅ ๊ธฐ๋ฒ. ๋ฒ ์ด์ฆ ์ ๋ฆฌ(Bayes' Theorem)*๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค.
- ๋ฒ ์ด์ฆ ์ ๋ฆฌ (Bayes' Theorem): ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ณ์ฐํ๋ ์ ๋ฆฌ.
- ์ฌ์ ํ๋ฅ (Prior Probability): ํน์ ํด๋์ค๊ฐ ๋ํ๋ ์ฌ์ ํ๋ฅ .
- ๋์ด๋ธ ๋ฒ ์ด์ฆ์ ๊ธฐ๋ณธ ๊ฐ์ - ํน์ง๋ค์ด ์๋ก ๋
๋ฆฝ์ด๋ค.
- ์ค์ ๋ก๋ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์์ ์์ ํ ๋ ๋ฆฝ์ ์ธ ํน์ง์ ๊ฐ์ง๋ ๋ฐ์ดํฐ๋ ๊ฑฐ์ ์๋ค.
- ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ๋์ด๋ธ ๋ฒ ์ด์ฆ๋ ๊ฝค ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
- ์ฌ์ฉ ๋ผ์ด๋ธ๋ฌ๋ฆฌ - sklearn.naive_bayes.MultinomialNB
๋ก์ง์คํฑ ํ๊ท (Logistic Regression)
๐ก ๋ก์ง์คํฑ ํ๊ท (Logistic Regression)
์ด์ง ๋ถ๋ฅ ๋ฌธ์ (Binary Classfication)๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์ฃผ๋ก ์ฌ์ฉ๋๋ ๋ถ์ ๊ธฐ๋ฒ. ๋ฐ์ดํฐ๊ฐ ์ด๋ค ๋ฒ์ฃผ์ ์ํ ํ๋ฅ ์ 0์์ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ์์ธกํ๊ณ ๊ทธ ํ๋ฅ ์ ๋ฐ๋ผ ๊ฐ๋ฅ์ฑ์ด ๋ ๋์ ๋ฒ์ฃผ์ ์ํ๋ ๊ฒ์ผ๋ก ๋ถ๋ฅํ๋ค.์ฆ ์ฃผ์ด์ง ๋ฐ์ดํฐ๊ฐ ํน์ ๋ฒ์ฃผ์ ์ํ ํ๋ฅ ์ ์์ธกํ์ฌ 0๊ณผ 1๋ก ๋๋์ ์๋ค.
- ๋ก์ง ํจ์ (Logit Function): ๋ก๊ทธ ํ๋ฅ ์ ๊ณ์ฐํ๋ ํจ์.
- ์ค์ฆ (Odds): ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ ๊ณผ ๋ฐ์ํ์ง ์์ ํ๋ฅ ์ ๋น์จ.
- ์๊ทธ๋ชจ์ด๋ ํจ์ (Sigmoid Function): ํ๋ฅ ์ 0๊ณผ 1 ์ฌ์ด๋ก ๋ณํํ๋ ํจ์.
- ํ์ต ์๊ณ ๋ฆฌ์ฆ - ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)
- ์ ์ฉ ์ฌ๋ก: ์คํธ ๋ฉ์ผ ํํฐ๋ง, ์ง๋ณ ์ฌ๋ถ ์ง๋จ, ๊ณ ๊ฐ ์ดํ ์ฌ๋ถ
๋จธ์ ๋ฌ๋์ ์ดํด์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฉ (3) ๋ก์ง์คํฑ ํ๊ท
240604 Today I Learn๋ก์ง์คํฑ ํ๊ท ์ด๋ก ๐ก ๋ก์ง์คํฑ ํ๊ท๋ ๋ฆฝ ๋ณ์์ ์ ํ ๊ฒฐํฉ์ ์ด์ฉํ์ฌ ์ฌ๊ฑด์ ๋ฐ์ ๊ฐ๋ฅ์ฑ์ ์์ธกํ๋ ๋ฐ ์ฌ์ฉ๋๋ ํต๊ณ ๊ธฐ๋ฒ์ผ๋ก ๊ฐ์ค์น ๊ฐ์ ์๋ค๋ฉด X๊ฐ์ด ์ฃผ์ด์ก์ ๋ ํด๋น
archivenyc.tistory.com
์ํฌํธ ๋ฒกํฐ ๋จธ์ (Support Vector Machine)
๐ก ์ํฌํธ ๋ฒกํฐ ๋จธ์ (SVM)
๋ค์ฐจ์ ๊ณต๊ฐ์์ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฆฌํ๊ธฐ ์ํ ์ดํ๋ฉด(Hyperplane)์ ์ฐพ๋ ๊ธฐ๋ฒ. ๋น์ ํ ๋ฌธ์ ๋ ํด๊ฒฐํ ์ ์์.
๋ฐ์ดํฐ๋ฅผ ๊ณ ์ฐจ์ ๊ณต๊ฐ์ผ๋ก ๋งคํํ์ฌ ์ต์ ์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฅผ ์ฐพ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์ปค๋ ํธ๋ฆญ์ ์ฌ์ฉํ์ฌ ๋น์ ํ ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
- ์ดํ๋ฉด (Hyperplane): ๋ฐ์ดํฐ๋ฅผ ๋ ๊ฐ์ ํด๋์ค๋ก ๋๋๋ ๊ฒฝ๊ณ. (2์ฐจ์์ผ ๋ ์ , 3์ฐจ์์ผ ๋ ํ๋ฉด, n์ฐจ์์ผ ๋๋ ์ดํ๋ฉด)
- ์ํฌํธ ๋ฒกํฐ (Support Vectors): ์ดํ๋ฉด์ ๊ฐ์ฅ ๊ฐ๊น์ด ์์นํ ๋ฐ์ดํฐ ํฌ์ธํธ.
- ๋ง์ง (Margin): ์ํฌํธ ๋ฒกํฐ์ ์ดํ๋ฉด ์ฌ์ด์ ๊ฑฐ๋ฆฌ.
- SVM์ ์๋ฆฌ - SVM์ ์ต๋ ๋ง์ง์ ์ฐพ๊ธฐ ์ํด ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ
- ํ๋ ๋ง์ง SVM: ๋ชจ๋ ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ๋ง์ง ์ธ๋ถ์ ์์นํ๋๋ก ๊ฒฐ์ ์ดํ๋ฉด์ ์ค์ ํฉ๋๋ค. (์ก์์ด ์๋ ๋ฐ์ดํฐ์ ์ ํฉ)
- ์ํํธ ๋ง์ง SVM: ์ผ๋ถ ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ๋ง์ง ๋ด๋ถ์ ์์นํ ์ ์๋๋ก ํ์ฉํ๋ฉฐ, ์ด๋ฅผ ์ํด ๋ฒ์ ๋ณ์๋ฅผ ๋์ ํฉ๋๋ค. (์ก์์ด ์๋ ๋ฐ์ดํฐ์ ์ ํฉ)
- ์ฅ๋จ์
์ฅ์ | ๋จ์ |
|
|
'๐ Today I Learn > ๐ Python' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๊ฐ์ธ ๊ณผ์ ] ๋จธ์ ๋ฌ๋ ๊ฐ์ธ๊ณผ์ (1) | 2024.06.13 |
---|---|
๋จธ์ ๋ฌ๋์ ์ดํด์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฉ (7) ๋ฅ๋ฌ๋ (1) | 2024.06.13 |
๋จธ์ ๋ฌ๋์ ์ดํด์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฉ (6) ๋น์ง๋ํ์ต (0) | 2024.06.11 |
๋จธ์ ๋ฌ๋์ ์ดํด์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฉ (5) ํ๊ท, ๋ถ๋ฅ ๋ชจ๋ธ๋ง ์ฌํ (0) | 2024.06.11 |
ํต๊ณ์ผ ๋์ (4) ์ง๋ํ์ต๊ณผ ๋น์ง๋ํ์ต (1) | 2024.06.11 |