본문 바로가기
데이터 사이언스

통계 분석에서의 이상치(outlier) 판별 기준

by 빛나는존재 2022. 4. 25.

이상치를 판별할 수 있는 객관적인 기준 마련의 필요성

데이터를 모으면 일반적인 관측값과 차이가 많이 나는 특이한 값들이 관찰되는 경우가 종종 있다. 우리가 객관적인 기준 없이 주관적으로 생각했을 때는 사람마다 어느 값을 벗어나면 이상치라고 판단하는 기준이 달라질 것이다. 따라서 수학적으로 이상치를 판별할 수 있는 기준을 마련하는 것이 필요한데, 여기에는 여러 가지 방법이 있지만 여기에서는 크게 interquartile range와 Standard Deviation을 이용한 방법에 대해서 이야기하고자 한다.

Interquartile Range(IQR) 를 이용하는 경우

우선 Interquarilte Range 가 무엇인지 이해하기 위해서는 기본적인 분포의 구조부터 이해해야 한다. 어떤 분포가 있을 때, median 값을 구하면 median 보다 낮은 그룹, 높은 그룹 2가지 그룹이 생기게 된다. 그 후 그 2개의 그룹에서의 각각의 median을 구하면 되는데, 그것이 각각 first quartile, 3rd quartile 이 된다. Interquartile Range는 3rd quartile에 해당하는 값에서 1st quartile에 해당하는 값을 뺀 것을 의미하며 이 값에 1.5라는 가중치를 곱한 값을 1st quartile로부터 뺀 값이 lower threshold이다. 즉, 이 기준보다 작은 값들이 일반적인 값들 보다 비정상적으로 작다고 할 수 있는 근거가 된다. 반대로 Interqaurtile Rnage에 1.5를 곱한 값을 3rd quartile에 더해주면 그게 upper threshold가 됨. 즉, 그 기준을 넘어선 큰 값은 일반적인 값들보다 비정상적으로 너무 크다기 때문에 이상치라고 판정할 수 있는 것이다.

표준편차를 사용하는 경우

데이터가 어느정도 정규분포를 따르면 Standard normal distribution으로 표준화시켜 평균이 0, 표준편차가 1이 되도록 한다. 그러면 평균에서 벗어날수록, 즉 표준편차가 커질수록 이상치일 가능성이 높아지는 것이다. 보통은 3SD을 기준으로 하여 어떤 관측값이 -3SD 보다 낮거나 3SD 보다 높은 경우 이상치라고 판정한다. 실제로 이것은 많은 경우에 사용되는 방법이다. 예를 들어 아동 신체 발육이 정상적으로 일어나는지 보기 위해 아동의 성장 지표가 될 수 있는 키, 몸무게 등의 값이 다른 아동에 비해 -3SD 밑에 있는 경우에는 영양실조를 의심해 볼 수 있고 3SD 위에 있는 경우에는 비만을 의심해 볼 수 있다.

 

이상치 분석에서의 주의사항

많은 경우에서 연구자들이 자신의 데이터에서 이상치가 발생하게 되면 평균을 심하게 왜곡시킬 수 있고 데이터 분석에 영향을 주기 때문에 이상치를 제거한 데이터를 분석하는 경향이 있다. 문제는, 이에 대한 언급이 없는 경우이다. 이상적으로는, 연구윤리를 충분히 따르는 연구자라면 이상치를 제거했을 경우 이상치 제거 기준, 이상치를 제거한 관측값의 개수 등을 표기하고 이상치를 포함하여 데이터를 분석한 경우, 이상치를 포함하지 않은 경우 2가지를 모두 리포트 하는 것이 맞다고 본다. 그리고 이상치 자체가 중요한 정보를 담고 있는 경우가 있을 수도 있다. 이상 치라는 것은 그 관측값이 발생하기 전에 이상현상이 있었다는 것을 전제로 할 가능성이 높기 때문이다. 예를 들어, 어떤 장비에서 문제가 생겼을 경우 그 장비에서 비정상적으로 높거나 낮은 신호가 발생할 수 있다. 혹은 빈곤한 부모 밑에서 자라나는 아동의 경우 충분한 영양섭취를 하지 못하여 체중이 다른 아동에 비해 낮게 나타날 수 있다. 따라서 이상치는 배제되어야 하기보다는 관심을 갖고 봐야 할 수치일 수도 있기 때문에 함부로 데이터에서 제거하는 것은 옳지 않으며 만약 제거할 경우, 이상치를 제거했음을 반드시 명시해야 한다고 생각한다.

 

그리고 과연 앞서 소개한 2가지 이상치 판별 기준에서 사용된 가중치 1.5와 3은 객관적으로 유용한 숫자인지 본인이 판단해야 한다. 그 수치들은 일반적으로 통용되는 수치이기 때문에 자신의 분야, 혹은 데이터에서 적절하다고 생각되는 기준은 1.5보다 높을 수도 있다. 만약 이 경우 더 적은 outlier가 관찰 될 것이다.

반응형