Type 1, Type 2 error의 의미
통계적 가설 검정을 실시하여 귀무가설을 기각하거나, 기각하지 않거나 둘 중 하나의 결론이 나오게 되는데 이 결론이 항상 옳다는 보장은 없다. 아무리 심혈을 기울여 가설 검정을 했다고 해도 자신이 내린 결론이 실제 상황과는 달라 틀릴 수 도 있기 때문이며, 이를 error라고 한다. 이 error는 Type 1, Type 2 error로 나누어 볼 수 있는데 이 두 개의 error를 헷갈려하는 사람들이 많고 나 역시 통계를 처음 배울 때에는 계속 헷갈렸던 부분이기 때문에 다른 분들은 처음 배워도 알기 쉽게 설명해보도록 하겠다. Type 1 error는 false positive, Type 2 error는 false negative이다. 여기서 “positive”란, 귀무가설을 기각하는 결과를 발견하는 것을 의미한다. 쉽게 이야기하면, positive란 뭔가 특이한 현상이 발생했다는 결론을 내렸다고 생각하면 된다. 예를 들어, 집단 간의 차이가 있거나 상관관계가 “있는 것”을 “positive”라고 하고, 그 반대를 “negative”라고 한다. 그룹 간의 차이를 알고 싶을 때에는 t-test나 Mann-whitney U-test, ANOVA 등을 사용할 수 있으며 상관관계는 pearson이나 spearman correlation test 등을 통해 알 수 있다.
쉽게 외우는 방법
Type 1 error 가 false positive라고 하면, 그건 귀무가설을 기각하지 말았어야 하는데 잘못 기각한 것이고 type2 error 가 false negative라고 하는 것은 귀무가설을 기각해야 하는데 잘못 기각하지 않은 것을 말한다. 이 둘의 개념은 계속 헷갈리기 때문에 쉽게 외우는 방법을 익히면 정확하게 기억할 수 있다. 내가 개인적으로 고안한 방법은 다음과 같다. 우리가 어렸을 때 덧셈 (+)을 첫 번째(즉, 1이라는 숫자에 해당)로 배움. 뺄셈(-)은 두 번째 (숫자 2에 해당)로 배운다. Type 1 error와 Type 2 error는 모두 잘못된 결과이므로 “False”이다. 따라서 둘 다 맨 앞에 false를 써 준다. 그다음으로는 type 1 error는 덧셈에 해당하는 + 마크를 쓰면, 이것은 positive라는 뜻으로 이어진다. type 2 error는 뺄셈에 해당하는 - 기호를 쓰며 이것은 negative라는 뜻이 된다.
Type 1, Type 2 error의 핵심 요약
type1 error를 단 한마디로 정의한다면, 그것은 위양성이다. 통계량을 계산하여 가설을 테스트하여 양성(집단 간의 차이나 상관관계 존재)이라는 결론을 내렸지만 알고 보니 그것은 틀린 것이라는 뜻이다. 통상적으로 이 type 1 error를 나타내는 것은 alpha이며 0.05이다. 이것이 곧 significance level 이기도 하다. (첨언하자면, alpha를 0.1이나 다른 수치로 설정할 수 도 있지만 그런 경우는 거의 보지 못했다. 하지만 그렇다고 해서 0.05가 절대적으로 맞는 수치는 아니며 관례적으로 쓰이는 수치이기 때문에 이 부분에 대해서도 논란이 있다.) type 2 error는 한마디로 위음성이다. 결론은 음성이지만 실제로는 그것이 틀린 것이다. 이 확률을 beta로 나타낸다.
그렇다면 실제로 Positive인 결과 일 때 그에 맞게 귀무가설을 잘 기각하는 확률은 1-alpha가 되며 이를 민감도 (sensitivity)라고 한다. 그리고 반대로 실제로 negative한 결과 일 때 그 에 맞게 귀무가설을 기각하지 않은 확률을 1-beta로 표현하며, 이를 특이도 (specificity), 또는 statistical power라고 한다. 즉, statistical power가 높을수록 type 2 error를 저지르지 않을 확률이 올라가는 것이고 보통 80%가 되는 것이 바람직한 것으로 본다 (즉, 이때 type 2 error 발생 확률은 100-80 = 20%가 된다.)
'데이터 사이언스' 카테고리의 다른 글
선형회귀분석을 위한 전제조건들 (0) | 2022.05.04 |
---|---|
Confidence interval (신뢰구간) 쉽게 설명하기 (0) | 2022.05.02 |
주성분분석(PCA)과 정준상관분석(CCA) (0) | 2022.04.26 |
통계 분석에서의 이상치(outlier) 판별 기준 (0) | 2022.04.25 |
P-value란 무엇이며 Bayesian 통계와는 어떠한 차이가 있는가 (0) | 2022.04.24 |