반응형
- Classification Problem
- Predictor는 어떤 관측이 특정 클래스에 속하는 가를 나타내는 점수를 산출하는것으로, 그 결과점수에 임계값을 사용해 실제 예측으로 전환한다.
- 분류에는 보통 보정된 확률을 출력하는것이 아니다. 음성 경우로부터 양성경우를 구별하고자 사용되는 임계값은 자체가 최적화될 결정변수로서 정확한 예측과 부정확한 예측의 비용과 편익을 고려해서 사용해야 한다.
- ROC곡선은 성과를 기반으로 분류기를 시각화하고 선택하게 된다. 임계값을 사용해 모든 예측점수에 대한 클래스를 예측하고 그러한 결과를 참양성률(TPR)과 거짓양성률(FPR)로 계산하여 분류기의 성과가 밴치마크보다 나쁘다면 y=x (즉, 랜덤50%)로서 예측을 반대로 하면 오히려 성과가 상승한다. 즉, 밴치마크는 최소의 기준으로 활용된다.
- AUC는 ROC아래의 면적(0.5~1의 범위)으로 클래스 불균형에 민감하지 않다는 장점이 있다.
- 정밀도-재현율곡선(PRC, Precision-Recall Curve) : 여러 임계값에 대한 오차척도간의 Tradeoff 시각화
- 재현율(Recall) : 정보검색에서 유래한것으로서 검색알고리즘에서 성공적으로 식별된 관련문서 비중을 측정한다는 의미
- Recall = TP / (TP + FN) or TP / (Y=1)
- 정밀도(Precision) = 양성예측 중에서 참인
- Precision = TP / (TP + FP) or TP / (Y^=0)
- Recall의 임계값이 낮을수록 정밀도는 하락한다
- TPR/FPR = 1 - Recall
- 재현율(Recall) : 정보검색에서 유래한것으로서 검색알고리즘에서 성공적으로 식별된 관련문서 비중을 측정한다는 의미
- F1-Score는 Recall과 Precision의 조화평균으로서 두 척도가 취하는 임계값을 수치적 최적화하기 위해 사용가능하다.
728x90
반응형
'Data Science & AI Theories' 카테고리의 다른 글
Required Variables Selection | 필수 변수 선택방법 (0) | 2023.08.13 |
---|---|
Regularization | 정규화 - L1, L2, Elastic Net (2) | 2023.08.13 |
혼동행렬(Confusion Matrix) (0) | 2023.08.13 |
회귀(Regression) 자료 정리(6) - 다중공선성(Multicollinearity) (0) | 2023.08.13 |
회귀(Regression) 자료 정리(5) - 로지스틱회귀(Logistic Regression), AIC/BIC검사 (0) | 2023.08.13 |