본문 바로가기
Data Science & AI Theories

인공지능 - 분류 문제(Classification Problem) 고려사항

by Oliver J 2023. 8. 13.
반응형
  • Classification Problem
    1. Predictor는 어떤 관측이 특정 클래스에 속하는 가를 나타내는 점수를 산출하는것으로, 그 결과점수에 임계값을 사용해 실제 예측으로 전환한다.
    2. 분류에는 보통 보정된 확률을 출력하는것이 아니다. 음성 경우로부터 양성경우를 구별하고자 사용되는 임계값은 자체가 최적화될 결정변수로서 정확한 예측과 부정확한 예측의 비용과 편익을 고려해서 사용해야 한다.
    3. ROC곡선은 성과를 기반으로 분류기를 시각화하고 선택하게 된다. 임계값을 사용해 모든 예측점수에 대한 클래스를 예측하고 그러한 결과를 참양성률(TPR)과 거짓양성률(FPR)로 계산하여 분류기의 성과가 밴치마크보다 나쁘다면 y=x (, 랜덤50%)로서 예측을 반대로 하면 오히려 성과가 상승한다. , 밴치마크는 최소의 기준으로 활용된다.
    4. AUCROC아래의 면적(0.5~1의 범위)으로 클래스 불균형에 민감하지 않다는 장점이 있다.
    5. 정밀도-재현율곡선(PRC, Precision-Recall Curve) : 여러 임계값에 대한 오차척도간의 Tradeoff 시각화
      • 재현율(Recall) : 정보검색에서 유래한것으로서 검색알고리즘에서 성공적으로 식별된 관련문서 비중을 측정한다는 의미
        • Recall = TP / (TP + FN) or TP / (Y=1)
      • 정밀도(Precision) = 양성예측 중에서 참인
        • Precision = TP / (TP + FP) or TP / (Y^=0)
      • Recall의 임계값이 낮을수록 정밀도는 하락한다
      • TPR/FPR = 1 - Recall
    6. F1-ScoreRecallPrecision의 조화평균으로서 두 척도가 취하는 임계값을 수치적 최적화하기 위해 사용가능하다.
728x90
반응형