머신러닝이 완전히 인간의 개입으로부터 자유로운 것은 아닙니다.
모델 설정 - ‘데이터들이 이런 관계를 가질 것이다’라는 가설
모델 | 가정 |
---|---|
선형 모델 | 데이터의 각 피쳐들과 정답이 선형 관계 |
트리 모델 | 정답이 데이터 각 피쳐들에 대한 Yes/No 판단의 결과로 구성(결정 트리) |
딥러닝 모델 | 데이터의 각 피쳐들과 정답이 아주 복잡한 비선형 관계 |
모델을 학습하는 방법 설정
모델 | 비용 함수 | 최적화 알고리즘 |
---|---|---|
선형 모델 | MSE | 해석적 방법 |
경사하강 알고리즘 | ||
트리 모델 | 불순도 / 엔트로피 | 탐욕적 알고리즘 |
딥러닝 모델 | (모델별로 다양) | 경사하강 알고리즘 |
분류된 결과에 대한 평가 지표
모델의 예측값에 Threshold
가 적용되어 최종적으로 분류된 결과를 평가하는 지표들입니다.
Threshold
가 바뀔 경우 평가 지표의 값도 바뀝니다.
TP / TN / FP / FN
예측 1 | 예측 0 | |
---|---|---|
실제 1 | TP | FN |
실제 0 | FP | TN |
Threshold와 각 지표들
Threshold가 높아진다 ↔ 모델이 깐깐하게 1이라고 한다
⇒ 아닌 건 아니라고 한다 ($FPR=\frac{FP}{TN+FP}$ ⬇️)
⇒ 근데 맞는 것도 아니라고 한다 ($Recall=TPR=\frac{TP}{TP+FN}$ ⬇️)
⇒ 맞다고 한 거면 대부분 맞다(모델이 깐깐하다) ($Precision=\frac{TP}{TP+FP}$ ⬆️)
Threshold가 낮아진다 ↔ 모델이 후하게 1이라고 한다
⇒ 아닌 것도 맞다고 한다 ($FPR=\frac{FP}{TN+FP}$ ⬆️)
⇒ 맞는 것도 맞다고 한다 ($Recall=TPR=\frac{TP}{TP+FN}$ ⬆️)
⇒ 맞다고 한 것이어도 아닐 수 있다(모델이 후하다) ($Precision=\frac{TP}{TP+FP}$ ⬇️)
Accuracy / Precision / Recall / F1