본문 바로가기
Data Science & AI Theories

p-value, α, 검정력, 검정통계량, 통계적 유의성

by Oliver J 2023. 8. 13.
반응형
  • 실험설계는 어떤 가설을 확인/기각하기 위한 목표를 갖고 있다

 

  • A/B 검정
    1. 한쪽이 다른 쪽보다 우월하다는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험
    2. 대조군이 없을 경우 ‘모든 다른것들은 동일하다’는 보장이 없으며, 어떤 차이가 나는 처리 때문인지 확인이 불가능하다

 

  • 귀무가설(Null Hypothesis) – 우연 때문이라는 가설
  • 대립가설(Alternative Hypothesis) – 귀무가설과 대조(증명하고자 하는 가설)

 

  • 순열검정(Permutation Hypothesis)
    1. 두개이상의 표본을 함께 결합하여 관측값들을 무작위로 재표본추출하는 과정으로서 랜덤변이가 어떤 역할을 하는지 확인하기 위한 휴리스틱 한 절차
    2. 관찰된 차이가 순열밖에 있다면 우연때문이 아니라고 결론을 내릴 수 있다.(=통계적으로 유의미하다, Statistically Significant)

 

  • 재표본추출 – 관측 Data로부터 반복해서 표본추출하는 과정
  • 통계적 유의성
    1. 실험결과가 우연히 발생한 것인지 우연히 발생 불가능한 것인지 판단하는 방법으로서 우연히 벌어질 수 있는 변동성의 바깥에 존재한다면 이를 통계적으로 유의미하다고 한다.
    2. 결과가 통계적으로 유의미하다고 하여 실제적으로 유의미하다는 것은 아니다. 실제적 의미가 없는 작은 차이라도 표본이 충분히 클 경우 통계적으로 유의미하다는 결과가 나올 수 있다.

 

  • p-value
    • 최소한의 유의수준으로서 p-value가 유의 수준(α)보다 작아서 기가역에 포함시 귀무가설 기각
    • 귀무가설을 구체화한 Model 이 주어졌을때 관측 결과와 같이 특이하거나 극단적 결과를 얻을 확률
    • 관심있고 유용한 Model의 결과가 일반적인 랜덤변이 내에 있는지 확인하기 위한 유용한 측정지표
    • 표본크기가 커질수록 p-value 가 더 작아진다.
    • p-value < α : H0 Reject : α 하에서 유의하다
    • p-value > α : H0 Not Reject : α하에서 유의하지 않다

 

  • 유의수준(α)
    • 귀무가설 Model에서 비정상이라는 판단의 임계값으로 H0가 참인데 H0기각할 확률. 즉, 실제 귀무가설이 맞지만 귀무가설이 아니라고 오판할 확률의 값
      • β – H0가 거짓인데 기각하지 못할 확률
    • 실제 결과가 통계적으로 유의미하다고 간주되기 위하여 우연에 의한 결과가 능가해야 하는 비정상적인 가능성의 임계확률(대게 5% 나 1%)
    • 유의성 검정(가설검정)의 기본기능은 우연히 일어난 일에 속지 않도록 하는 것으로서 1종오류의 최소화가 설계의 목표
    • Alpha inflation - 1종 오류를 만들확률인 α가 더 많은 test를 수행할수록 증가하는 다중점검 현상

 

  • 1종 오류 – 우연에 의한 효과를 실제 효과라고 오판할 확률
  • 2종 오류 실제효과를 우연이라고 오판할 확률(특히, 표봉니 너무 작을 경우)
  • 거짓발견비율(FDR: False Discovery Rate) – 다중검정에서 1종 오류 발생비율
반응형
    • 검정통계량(Test Statistics)
      • 관심의 차이 또는 효과에 대한 측정지표
      • H0가 참이라는 가정하에 얻은 통계량. , Sample의 함수값
      • 값이 클수록 H0기각 쉽다
      • T값을 Signal의 강도로 볼 수 있다. , T값이 클수록 H0 Reject 하기 좋다.
      • T값이 클수록 p-value는 하락
      • 셰페법(Scheffe)
        • 검정통계량 보정으로 검정을 반복하는 것
        • Ex) F검정분자 : 집단수 -1
      • 본페로니법(BonFerroni)
        • 여러집단을 두 집단으로 나누어 대비하는 방법
        • 검정을 반복하면 안되지만 유의수준을 보정함으로써 검정을 할 수 있도록 하는 것
    • 검정력(1 - α)
      • 주어진 표본크기로 알아낼 확률로서 값이 클수록 Good!
      • 검정력 계산의 주된 용도
        1. 표본크기가 어느 정도 필요한지를 추정하는 것
        2. 표본크기, 탐지하고자 하는 효과크기, 가설검정을 위한 유의 수준, 검정력 중 3가지만 정하면 나머지는 확인 가능
        3. (Python) sm.stats.proportion_effectsize()계산 후 sm.stats.TTestIndPower().solve_power()
  •  
728x90
반응형