중심극한정리를 이용한 가설검정

Frequentist 적인 접근을 하는 통계학에서는 중심극한정리를 바탕으로 가설을 검정하고, p-value를 계산하여 자신의 주장을 뒷받침 할 수 있는 근거를 마련하는 것이 핵심이다. 본 포스팅에서는 중심극한정리의 기본적인 개념, 이것이 가설검정에 어떻게 적용되는지에 대해 알아보도록 하겠다.

중심극한정리란 무엇인가

Population 으로 부터 여러 sample 들을 추출하면 각각의 sample에서의 평균을 구할 수 있다. 이 때, population 의 분포가 normal distribution이 아니더라도 충분히 많은 수의 sample들을 추출하면 그 평균들로 구성된 distribution은 normal distribution 에 가까워진다. 우리가 어떤 population에서 sample 추출을 딱 1번 했을 경우 그 sample 의 평균이 population의 평균을 대표할 수는 없을 것이다. 아마 특정한 값에 치우쳐 있을 가능성이 높다. 그런데, 만약 하나의 population에서 여러 개의 샘플을 추출하고 그 sample 마다의 평균을 구할 경우, sample 의 수가 충분히 많으면 모집단의 mean 과 유사한 값을 가질 것이다. 이 때, 여러 개의 sample 각각의 평균 값들은 모집단의 평균으로 볼 수 있고, sample 들의 표준편차는 각 sample 의 표준편차를 n의제곱근으로 나누어 준 형태를 취하게 되며 (즉, sample 각각의 분산의 평균을 내어주는 것인데, 이에 제곱근을 취하여 표준 편차를 구한 것이다.) 이를 Standard error of mean (표준오차)이라고 한다. 바로 이 개념이 가설 검정에 사용된다.

가설검정 하기: 어느 가설이 맞을까

가설검정을 하기 위해서는 귀무가설과 대립가설을 세워야 한다. 대립가설이란 두 개 이상의 집단의 관측값 또는 한개의 population 과 그에서 추출된 sample 의 관측값 사이에 유의한 차이가 있다는 것을 주장하는 것인 반면 귀무가설은 다르지 않다고 하는 것이다. 참고로, 귀무가설을 기각하지 못한다고 할 지라도 그것은 유의한 차이가 없다는 것을 증명하지 못한다. 만약 같은 실험에서 Sample의 수가 충분히 컸다면 대립가설을 채택할 수 있는 통계량이 계산되었을 수도 있기 때문이다. 따라서 우리가 가설검정을 통해서 목표하는 바는 귀무가설을 기각하여 대립가설이 맞다는 것을 증명하는 것 이다.

예를 들어서 어느 population으로부터 sample size가 18인 sample을 추출하고 이 때 population의 평균과 표준 편차는 알려지지 않은 상태라고 가정한다. (대부분의 경우, 이것은 알 수가 없다.) 만약 sample의 평균은 16.3, 표준편차는 3.32라고 할 때, population의 평균이 15보다 큰지 테스트를 한다고 하면 귀무가설은 population 의 평균이 15와 같다는 것이 되고 대립가설은 15보다 크다는 것으로 설정을 한다.

그 후, population에 대한 정보가 없기 때문에 이를 추정할 수 있는 t-statistic을 다음과 같은 식으로 계산한다.

분자는 sample 평균이 population의 평균으로부터 얼마나 다른지를 나타내는 부분이며, 이것이 우리가 관심이 있는 부분이다. 하지만 이것을 객관적으로 파악하기 위해서는 오차에 비해서 얼마나 그것의 차이가 큰지 볼 필요가 있기 때문에 오차만큼을 나눠준 것이다. 여기에 이 문제를 대입해보면 t-statistic은 1.66이라는 값이 나온다. 그 통계량을 t-table을 참고하여 critical value와 비교한다. 이 문제에서는 n=18이므로 자유도인 df는 18-1=17이 된다. 그리고 one-tail 단측검정이므로 critical value가 1.74이다. 이를 통해 t-statistic인 1.66이 critical value인 1.74보다 작으므로 귀무가설을 기각하지 못한다는 결론을 얻을 수 있다. 이렇게 하나의 population에서 t-statistic을 이용하여 가설 검증하는 것을 one-sample t-test라고 한다.

저작자표시 (새창열림)

'데이터 사이언스' 카테고리의 다른 글

통계기법을 사용한 소음의 정도에 따른 조류의 행동 변화 분석 (2)	2022.04.19
비개발자의 언어로 풀어 쓴 API 의 구조와 기능 (2)	2022.04.18
머신러닝에서 자주 쓰이는 Random Forest, Boosting (1)	2022.04.10
머신러닝 기법 설명: Tree 여러개를 모아 완성하는 Bagging (2)	2022.04.10
Tree-based 머신러닝의 기초개념, 해석 방법 및 주의점 (0)	2022.04.09