본문 바로가기
데이터 사이언스

Confidence interval (신뢰구간) 쉽게 설명하기

by 빛나는존재 2022. 5. 2.

 

Confidence interval (신뢰구간) 식의 구조

가설 검정은 신뢰구간(Confidence Interval)의 개념을 이용하기 때문에 이를 먼저 이해해야 한다. 신뢰구간은 다음과 같은 식으로 표현할 수 있다.

평균을 중심으로 양 옆으로 퍼져 있는 것 (노란 상자 안에 있는 식)을 Margin of Error라고 하며, 이는 confidence level(1-alpha)에 해당하는 Z value에 SE (Standard Error, standard deviation을 샘플 수의 square root로 나눈 값)를 곱한 값이다.

여기서, Z alpha/2 에 해당하는 숫자가 confidence level에 따라 달라진다. Confidence level이란, 여러 개의 샘플을 하나의 모집단에서 반복 추출했을 때, 그 샘플들의 CI 이 모평균을 포함할 확률이며 1-significance level 인 alpha를 뺀 값과 동일하다. 예를 들어, Significance level 이 0.05 일 때 Confidence level이 95%이며 이때 해당하는 Z값은 1.96이다. Significance level이 0.01일 때 confidence level은 99%이고, 이 경우의 Z값은 2.58이다. Significance level이 줄어들수록 Confidence level이 높아지고, 커버하는 영역이 커지기 때문에 Z의 숫자가 커진다. 신뢰구간의 값에 영향을 주는 요인으로는 대표적으로 sample size (n) 이 있는데, 이것이 커질수록 상식적으로 당연히 Margin of error 가 줄어들게 되어 더 정확한 추정이 가능해진다. 이것은 마치 비유를 하자면, 당신이 차 열쇠를 잃어버렸는데, 이것을 넓은 공용 주차장에서 찾는 것이 쉬운지, 아니면 작은 창고에서 찾는 것이 쉬운지로 생각하면 된다. 차 열쇠가 있을 것으로 생각되는 공간이 넓을수록 차 열쇠가 그 공간에 있을 확률이 높지만, 공간을 너무 넓히면 이 우주 안의 어딘가에는 열쇠가 있다는 뜻이 되며, 그러한 추정은 사실 추정을 하는 의미가 없다. 그렇다고 범위를 너무 좁히게 되면 조금만 그 범위를 벗어나게 되어도 열쇠는 범위 밖에 있게 되어 찾을 수 없게 된다.

 

Confidence level의 의미

confidence level이 95%라 함은, 100개의 샘플들이 하나의 모집단에서 반복 추출되었다면 그 중 95개의 샘플들의 CI는 모평균을 포함할 것 임을 의미한다. 즉, confidence level이 95%의 의미는 95%의 확률로 sample mean 이 mu +- 1.96 sigma 안에 들어올 것을 기대할 수 있다는 것이다. (confidence level이 99% 일 때에는 99% 의 확률로 sample mean이 mu+- 2.58 sigma 안에 들어올 것을 기대함.)

 

신뢰구간을 구할 때에는 기본적으로 population 의 평균을 추정하기 위한 경우에 대해 배우지만, population의 proportion이 추정의 대상인 경우가 있다. 예를 들어, 대통령 선거가 있기 전에 대통령 후보자 중 누가 대통령이 될 확률이 높은 지를 알기 위해 여론조사를 하는 경우가 있다. 이와 같은 경우에는 응답 비율을 고려해야 하기 때문에 population의 mean이 아닌 proportion을 추정해야 한다. 기본적인 공식의 구조는 population의 mean을 추정할 때와 동일하게 추정치를 기준으로 플러스 마이너스 오차를 구한다. 단지 차이가 나는 것은 population mean의 구간을 예측할 때 SE는 variance 나누기 샘플수를 square root 씌운 것이라면, proportion을 예측할 때에는 variance에 해당하는 부분이 p(1-p)인 것이다. (p는 proportion을 뜻한다.) 만약 95%의 신뢰 수준에서 후보 A 지지율이 30%이고 Margin of Error (오차범위)가 3%라면 100번 여론조사를 하면 그중 95번은 후보 A의 지지율이 27~33%가 나올 것으로 기대할 수 있다는 것이다.

 

 

반응형