본문 바로가기
Data Science & AI Theories

F-통계량과 분산분석(ANOVA)

by Oliver J 2023. 8. 13.
반응형
  • F통계량(F-Statistics)
    • F통계량의 분포는 모든 그룹의 평균이 동일할 경우 무작위 순열 Data에 의해 생성되는 모든 값의 빈도분포
    • 잔차오차(Residual Error)로 인한 분산과 그룹평균(처리효과)의 분산에 대한 비율을 기초로 함
    • 이 비율이 높을수록 통계적으로 유의미하다
    • F-stat = (Mean Sum of Regression) / (Mean Sum of Error) = MSR / MSE
    • MSR = RSS / k
    • MSE = SSE / (n-2)
      • 여기서의 MSE는 Mean Sum of Error이고, 회귀함수의 비용함수로서 MSE는 Mean Squared Error 이다
반응형

Mean squared error

 

  • 분산분석(ANOVA: Analysis of Variance)
    • 여러 그룹의 수치 Data를 서로 비교분석하여 통계적으로 유의미한 차이를 검정하는 통계적 절차
    • 그룹처리, 상호작용효과, 오차와 관련된 분산의 구성요소들을 구분하는데 유용
    • Pairwise Comparison – 여러그룹 중 두 그룹간의 가설검정
    • Omnibus Test – 여러 그룹평균 들의 전체 분산에 관한 단일 가설 검정
    • Decomposition of Variance – 구성요소 분리(ex – 전체평균, 처리평균, 잔차 오차로부터 개별값에 대한 기여)
    • F통계량(F-Statistics) – 그룹평균간의 차이가 Random Model에서 예상되는 것에서 벗어나는 정도를 측정하는 표준화된 통계량
    • SS(Sum of Square) – 어떤 평균으로부터 편차들의  제곱합

ANOVA 예시

728x90
반응형