본문 바로가기
데이터 사이언스

A/B test: 고객의 선호도를 통계적으로 분석하는 방법

by 빛나는존재 2022. 5. 9.

A/B test란 무엇인가

A/Btest는 말 그대로 A와 B 중 무엇이 더 좋은지의 선호도를 알아보는 분석 방법이다. A/B test는 여러 가지 통계 방법으로 수행될 수 있기 때문에 그 자체가 통계 분석 기법은 아니고, 여러 통계 기법들이 적용될 수 있는 실험 기법이라고 생각하는 것이 적절하다. 대부분의 경우 User Experience (UX/UI) 분야에서 웹사이트를 제작할 때 사용자들을 대상으로 어떤 웹사이트의 시안이 더 좋을지를 알아보는 데 사용된다. 예를 들어, 어느 의류 판매 업체에서 옷을 판매하기 위한 웹사이트를 구축할 때 가장 신경 써야 할 궁극적인 목표는 보다 많은 고객들이 자신들의 웹사이트에서 실제 구매를 하도록 만드는 것이다. 물론 옷의 품질이나 가격이 적절해야 하지만 기본적으로 웹사이트의 디자인이 좋지 않으면 소비자들은 웹사이트에 머물다가 실제 구매를 하지 않고 다른 웹사이트로 옮겨 갈 것이다. 조금이라도 구매 확률을 높이기 위해서는 소비자들에게 매력적으로 보일 수 있는 웹사이트를 구축해야 한다. 이를 위해 사용자의 집단을 2개로 나누어서 한 집단에서는 구매 버튼의 색이 파란색인 경우, 다른 집단에서는 구매 버튼이 초록색인 경우의 클릭하는 횟수를 비교할 수 있다.

 

A/B test 에 사용될 수 있는 통계 분석의 종류

흔히 A/B test 에는 t-test나 Mann-whitney U-test와 같이 2개의 집단 간의 평균의 차이를 알아보는 가설을 검증하는 통계 분석만 한다고 생각하기 쉽지만 그렇지 않다. 훨씬 더 다양한 분석을 할 수 있다. 예를 들어, 3개의 웹사이트 시안이 있다고 하고 그것을 각각 A type, B type, C type이라고 한다면, 사용자를 3개의 그룹으로 나누어서 하나의 시안을 하나의 그룹에 보여줄 수 있다. 물론 이상적으로는 같은 그룹에 있는 사람들이 모든 시안을 보는 것이 confounding factor를 제거할 수 있을 것이다. 아무리 그룹을 균질하게 나눈다고 하더라도, 성별, 연령, 취향 등에 따라 선호도가 달라질 수 있기 때문이다. 하지만 이는 현실적으로 어렵기 때문에 한 그룹에 한 시안을 보여준 후, 이에 대한 반응을 조사하는 방법이 사용된다. 이 경우에는 3가지 그룹이 있기 때문에 t-test 나 Mann-whitney U-test로는 분석이 불가능하고, 대신 ANOVA를 사용해야 한다. 물론 이때, 3개의 집단의 관측값이 정규분포를 따른다는 가정이 성립되어야 한다. 이렇게 그룹 간의 차이가 있는지를 확인하는 통계기법이 주로 적용되지만 상관관계를 분석하는 경우도 있다. 웹사이트에 고객이 체류한 시간에 따라 구매하는 금액이 달라지는지 궁금하다면 pearson이나 spearman’s correlation test를 통해 분석할 수 있다. 이때, 종속변수는 구매 금액, 독립변수는 체류시간으로 이 변수들이 모두 numeric 하고 continuous 한 경우이다. 종속변수와 독립변수가 모두 categorical 한 경우 상관관계를 확인하고 싶다면 chi-square test를 사용하면 된다. 예를 들어 구매금액이 아닌 구매 여부는 categorical 한 data이다. 그리고 웹사이트의 시안의 타입 역시 categorical 하다. 이 경우 웹사이트 시안에 따른 사용자의 구매 여부는 chi-square-test로 확인할 수 있다.

 

A/B test 실시할 때 주의해야 할 점

Harvard Business Review에 의하면, 흔히 기업에서 A/B test를 할 때 다음과 같은 실수를 하는 경향이 있다고 한다.

첫째, 너무 많은 metric을 분석에 포함 시키는 경우이다. 실험을 하기 전에 정말로 관심이 있는 metric만을 선별해야 한다. 그렇지 않으면 실험 전에 어떤 가설을 세워서 특정 변수의 변화에 관심을 갖기보다는 실험을 다 하고 나서야 나중에 결과를 보면서 우연히 significant 하게 나온 변수에만 관심을 갖게 될 수가 있다.

둘째, 많은 기업에서 A/B testing을 한번만 시도하고 재검사를 하지 않는다는 것이다. 아무리 통계적으로 유의한 결과가 나왔다고 하더라도, type 1 error 가 발생했을 경우에는 잘못된 의사결정을 할 수 있다. A/B test를 한꺼번에 너무 많이 하면 그중에 하나의 test에서 에러가 발생할 확률이 올라간다.

반응형