본문 바로가기
데이터 사이언스

주성분분석(PCA)과 정준상관분석(CCA)

by 빛나는존재 2022. 4. 26.

주성분 분석

주성분 분석(principal component analysis, PCA)과 정준 상관분석(canonical correlation analysis, CCA)은 많은 변수로 구성된 고차원을 저 차원으로 축소한다는 점에서 공통점이 있다. 이번 글에서는 주성분 분석과 정준 상관분석의 차이점, 정준 상관분석이 사용된 사례에 대해 소개하고자 하며 이를 위해 도서 An Introduction to statistical learning, 펜실베이니아 주립대학교의 온라인 통계 학습자료를 참고하였다.

 

주성분 분석은 독립변수들이 많아 고차원이 되는 경우, 이를 주성분 (principal component)으로 줄이는 방법이다. 이를 이용하면 관측 대상을 유사한 특성별로 쉽게 나눌 수 있는 장점이 있다. (하지만 아래 그림과 같이 주성분 분석을 해도 그렇게 되지 않은 경우도 있다는 것을 보여주고 싶다. 항상 실제 데이터는 교과서처럼 이상적으로 분석되지 않는다.) 참고로 주성분 분석은 독립 변수만 있고 그에 대응하는 종속변수가 없는 unsupervised 방식이기 때문에 독립변수에서 만의 차원 축소가 일어난다. 만약 3개의 변수 X1, X2, X3를 1개의 변수로 나타내고 싶다면 그 변수에 각각의 계수 (loading)을 곱한 후 더하여 Z라는 새로운 변수를 생성하며 이 값의 분산이 최대가 되도록 하며 이를 첫 번째 Principal Component라고 한다. 두 번째 principal component는 이와 상관관계가 없도록 하는 것 중 가장 분산이 크게 하도록 구성되어 첫 번째 principal component와 수직으로 만난다. 물론 주성분 분석을 하기 전에 변수들의 단위가 다른 경우 standardize를 해 주지 않으면 단순히 수치가 큰 변수에 의해 영향을 받게 되므로 이 점을 주의해야 한다.

정준 상관분석

일반적인 경우 통계분석에서는 하나 또는 그 이상의 독립변수가 종속변수에 대응된다. 예를 들어 독립변수가 하나인 값으로 종속변수와의 상관관계, 또는 종속변수의 값을 예측하려고 하는 경우가 있을 수도 있고 독립변수가 하나가 아닌 2개 이상일 수도 있다. 따라서 대부분의 경우에는 독립변수와 종속변수는 1 to 1, 혹은 many to 1의 관계를 갖게 된다. 그런데 만약 독립변수도 2개 이상이고, 종속변수에도 2개 이상의 변수가 있는 many to many의 관계일 때에는 그 집단 간의 상관관계를 어떻게 분석할 수 있을지 궁금할 것이다. 이런 경우 정준 상관분석을 통해 두 변수그룹간의 상관관계를 살펴볼 수 있다. X에 속하는 변수 X1, X2, X3 와 Y에 속하는 변수 Y1, Y2, Y3가 있다면 X에 속하는 3개의 변수의 선형 식을 구성하여 이를 새로운 변수 W로 만들고 Y 에 속하는 3개의 변수에도 같은 방법으로 V를 만든다. 선형 식의 구성은 각 변수에 계수를 곱한 것을 더하는 것이다. 즉, 이것은 many to many 의 관계를 1 to 1으로 단순화시키는 방법이라고 할 수 있다. 정리하자면, X에 속하는 3개의 변수와 Y에 속하는 3개의 변수 간의 상관관계를 바로 구하기는 복잡하기 때문에 3개의 변수를 각각 1개로 통합하여 W와 V라는 새로운 대표 변수 1개로 축소시킨 후 이들 간의 상관관계가 최대로 되도록 하는 것이다. 이러한 방법은 심리학, 생태학 등 다양한 분야에서 널리 사용된다. 

반응형