본문 바로가기
데이터 사이언스

선형회귀분석을 위한 전제조건들

by 빛나는존재 2022. 5. 4.

선형 회귀분석을 위한 몇 가지 가정

선형 회귀 분석은 독립변수 X를 통해 Y의 값을 예측하기 위한 분석방법이다. 독립변수가 1개인 경우 simple linear regression, 2개 이상인 경우 multiple linear regression으로 나눌 수 있다. 독립변수가 2개 이상이 되면 독립변수 간의 교호 작용(interaction)도 고려해야 하지만, 이번 포스팅에서는 이 부분에 대한 설명보다는 이 분석을 실시하기 위한 5가지 전제조건에 대해 이야기하고자 한다. 이 콘텐츠의 일부는 statology 사이트, 대학원 시절 biometry 수업에서 배웠던 내용 등을 참고했다.

선형 관계

종속변수와 독립변수의 관계가 선형이어야 한다. 즉, Y= ax + b 형태의 1차원 함수로 표현하기에 적절해야 한다. 비선형인 경우는 Y= log(x) 이거나 Y=ax^2+bx + c와 같은 2차원 이상의 함수로 표현될 수 있는 경우 등 다양하게 존재한다. 이때에는 종속변수와 독립변수 간의 관계가 비선형이므로 선형 회귀분석을 하는 것이 적절하지 않다. 선형관계여부를 파악하고 싶으면 종속변수와 독립변수간의 관계를 scatter plot 등으로 시각화하는 간단한 그림을 그리면 알 수 있다.

잔차의 독립성, 정규분포

잔차란, 독립변수를 통해 예측된 종속변수의 값과 실제 종속변수 간의 값의 차이이며 이것이 서로 연관되어 있으면 선형 회귀분석을 위한 전제조건을 위반하게 되는 것이다. 특히 시계열 데이터에서 이를 확인하는 방법은 시간에 따라 잔차에 특정한 패턴이 나타나는지 살펴봐야 한다. 또한, 잔차는 정규분포를 따라야 한다. 이를 확인하는 대표적인 방법으로는 Q-Q plot이 있다. 대각선에 잘 맞게 fitting 될수록 잔차가 정규분포를 잘 따른다는 것이다. 대각선에 잘 맞지 않게 한 부분이 떨어져 나간 분포를 보일수록 정규분포에서 멀어지고 있다는 뜻이다. 이런 경우에는 outlier 가 있지 않은지 체크해 보거나 독립변수를 log transformation 하는 방법 등이 있다.

잔차 분산의 일정 성 (Homoscedesticity)

잔차의 분산이 X의 값에 상관없이 일정해야 한다. 예를 들어, X가 낮을 때에는 잔차의 분산이 낮다가 X가 높은 구간에서는 잔차의 분산이 높아지는 패턴을 보이면 선형 회귀분석을 하기에 적합하지 않다. 이것 역시 종속변수와 독립변수 간의 관계를 살펴보기 위해 그림을 그렸던 것과 같이 분산의 일정한지 여부를 보기 위해서도 그림을 그려 확인할 수 있다. X축을 예측된 독립변수의 값, Y축을 잔차로 설정한 그래프를 그리면 잔차가 독립변수의 값에 따라 어떻게 변하는지 알 수 있다. 잔차의 분산이 일정하지 않은 경우는 heteroscedesticity라고 하며 이런 경우에는 선형 회귀 모델로 예측한 결과가 왜곡되어 이를 신뢰하기 어려워진다. 특히, regression coefficient의 예측값의 분산의 값이 지나치게 커지기 때문에 false positive error를 발생시킬 위험이 있다. 즉, 실제로는 유의한 결과가 없는 데 있는 것처럼 나타날 수 있다는 것이다.

 

다중공선성 문제: 독립변수 간의 상관관계가 낮아야 함 (No multicolliniearity)

우리는 무언가를 예측하기 위해 되도록 많은 독립변수를 넣고자 한다. 그런데 만약 독립변수끼리 서로 비슷한 정보를 담고 있다면 비슷한 독립변수를 굳이 모델에 넣을 필요가 없을 것이다. 그중 하나는 제외하는 등의 조치를 취해야 할 수도 있다. 독립변수간의 상관관계도 그림을 그려 확인 할 수 있다. 독립변수가 n개 있다면 그 중 2개씩의 조합을 만들 수 있기 때문에 n(n-1)/2 개의 그림을 그릴 수 있다. R과 파이썬에 이런 그림을 한꺼번에 그릴 수 있도록 지원해 주는 기능이 있기 때문에 이를 활용해도 좋다. 만약 어떤 변수간 높은 양의 상관관계, 음의 상관관계가 있다면 이러한 모델을 사용하기 전에 주의해야 한다. 객관적인 방법은 correlation coefficient가 0.8을 넘는지 확인하는 것, VIF 수치를 확인하는 방법 등이 있다.

반응형