본문 바로가기

데이터 사이언스34

머신러닝을 이용한 월급 예측 데이터 분석 포트폴리오 데이터 분석 포트폴리오를 작성하게 된 계기 예전에 내가 가입했던 데이터 사이언스 온라인 코칭 프로그램에는 포트폴리오의 중요성, 어떻게 작성해야 하는지 등에 대해 알려주며 포트폴리오 작성용 데이터셋과 함께 예시 분석 코드도 제공했다. 이를 참고하여 나는 나만의 코드와 분석 방법으로 포트폴리오를 완성하려고 한다. 이전에 나는 코로나 환자의 입원 기간을 예측하는 포트폴리오를 작성하긴 했지만 그때에는 지금보다 훨씬 데이터 분석에 대한 이해도가 낮은 편 이어서 이것을 사용해 취업을 하기가 어렵다는 판단이 들고, 결정적으로 포트폴리오를 계속 작성하지 않으면 나의 데이터 분석 실력이 퇴화하는 것이 느껴진다. 내가 비록 현재 회사에서는 데이터 사이언스 팀에 속해 있지만, 데이터 사이언스에 해당하는 업무를 하기보다는 이.. 2022. 5. 14.
A/B test: 고객의 선호도를 통계적으로 분석하는 방법 A/B test란 무엇인가 A/Btest는 말 그대로 A와 B 중 무엇이 더 좋은지의 선호도를 알아보는 분석 방법이다. A/B test는 여러 가지 통계 방법으로 수행될 수 있기 때문에 그 자체가 통계 분석 기법은 아니고, 여러 통계 기법들이 적용될 수 있는 실험 기법이라고 생각하는 것이 적절하다. 대부분의 경우 User Experience (UX/UI) 분야에서 웹사이트를 제작할 때 사용자들을 대상으로 어떤 웹사이트의 시안이 더 좋을지를 알아보는 데 사용된다. 예를 들어, 어느 의류 판매 업체에서 옷을 판매하기 위한 웹사이트를 구축할 때 가장 신경 써야 할 궁극적인 목표는 보다 많은 고객들이 자신들의 웹사이트에서 실제 구매를 하도록 만드는 것이다. 물론 옷의 품질이나 가격이 적절해야 하지만 기본적으로 .. 2022. 5. 9.
데이터사이언스 포트폴리오 작성법 포트폴리오 작성의 필요성 취업을 하기 위해서는 스스로 어느 정도로 실력이 되는지 객관적으로 다른 사람들에게 보여줄 수 있어야 한다. 포트폴리오 작성에 필요한 주요 단계로는 첫째, 문제 정의, 둘째, 데이터 전처리, 셋째, 모델 적합 후 평가 등이 있으며 이를 수행하는데 필요한 도구에 대해 이야기하고자 한다. 문제 정의 우선, 데이터를 통해 해결하고자 하는 문제가 무엇인지 문서화해야 한다. 분석의 목적이 무엇인지, 그리고 어떤 feature 들을 사용해서 어떤 target을 예측할 것인지, 그 target은 categorical 한 데이터인지, 아니면 numeric 한 데이터 인지 등등에 대한 정보가 필요하다. 그리고 각각의 변수들에 대한 설명이 있어야 한다. 물론, 대부분의 경우 변수의 이름을 보면 대충.. 2022. 5. 7.
선형회귀분석을 위한 전제조건들 선형 회귀분석을 위한 몇 가지 가정 선형 회귀 분석은 독립변수 X를 통해 Y의 값을 예측하기 위한 분석방법이다. 독립변수가 1개인 경우 simple linear regression, 2개 이상인 경우 multiple linear regression으로 나눌 수 있다. 독립변수가 2개 이상이 되면 독립변수 간의 교호 작용(interaction)도 고려해야 하지만, 이번 포스팅에서는 이 부분에 대한 설명보다는 이 분석을 실시하기 위한 5가지 전제조건에 대해 이야기하고자 한다. 이 콘텐츠의 일부는 statology 사이트, 대학원 시절 biometry 수업에서 배웠던 내용 등을 참고했다. 선형 관계 종속변수와 독립변수의 관계가 선형이어야 한다. 즉, Y= ax + b 형태의 1차원 함수로 표현하기에 적절해야 .. 2022. 5. 4.
Confidence interval (신뢰구간) 쉽게 설명하기 Confidence interval (신뢰구간) 식의 구조 가설 검정은 신뢰구간(Confidence Interval)의 개념을 이용하기 때문에 이를 먼저 이해해야 한다. 신뢰구간은 다음과 같은 식으로 표현할 수 있다. 평균을 중심으로 양 옆으로 퍼져 있는 것 (노란 상자 안에 있는 식)을 Margin of Error라고 하며, 이는 confidence level(1-alpha)에 해당하는 Z value에 SE (Standard Error, standard deviation을 샘플 수의 square root로 나눈 값)를 곱한 값이다. 여기서, Z alpha/2 에 해당하는 숫자가 confidence level에 따라 달라진다. Confidence level이란, 여러 개의 샘플을 하나의 모집단에서 반복 .. 2022. 5. 2.
통계 분석에서 사용되는 개념인 Type1, Type2 error 쉽게 설명 Type 1, Type 2 error의 의미 통계적 가설 검정을 실시하여 귀무가설을 기각하거나, 기각하지 않거나 둘 중 하나의 결론이 나오게 되는데 이 결론이 항상 옳다는 보장은 없다. 아무리 심혈을 기울여 가설 검정을 했다고 해도 자신이 내린 결론이 실제 상황과는 달라 틀릴 수 도 있기 때문이며, 이를 error라고 한다. 이 error는 Type 1, Type 2 error로 나누어 볼 수 있는데 이 두 개의 error를 헷갈려하는 사람들이 많고 나 역시 통계를 처음 배울 때에는 계속 헷갈렸던 부분이기 때문에 다른 분들은 처음 배워도 알기 쉽게 설명해보도록 하겠다. Type 1 error는 false positive, Type 2 error는 false negative이다. 여기서 “positive”.. 2022. 5. 1.
주성분분석(PCA)과 정준상관분석(CCA) 주성분 분석 주성분 분석(principal component analysis, PCA)과 정준 상관분석(canonical correlation analysis, CCA)은 많은 변수로 구성된 고차원을 저 차원으로 축소한다는 점에서 공통점이 있다. 이번 글에서는 주성분 분석과 정준 상관분석의 차이점, 정준 상관분석이 사용된 사례에 대해 소개하고자 하며 이를 위해 도서 An Introduction to statistical learning, 펜실베이니아 주립대학교의 온라인 통계 학습자료를 참고하였다. 주성분 분석은 독립변수들이 많아 고차원이 되는 경우, 이를 주성분 (principal component)으로 줄이는 방법이다. 이를 이용하면 관측 대상을 유사한 특성별로 쉽게 나눌 수 있는 장점이 있다. (하지.. 2022. 4. 26.
통계 분석에서의 이상치(outlier) 판별 기준 이상치를 판별할 수 있는 객관적인 기준 마련의 필요성 데이터를 모으면 일반적인 관측값과 차이가 많이 나는 특이한 값들이 관찰되는 경우가 종종 있다. 우리가 객관적인 기준 없이 주관적으로 생각했을 때는 사람마다 어느 값을 벗어나면 이상치라고 판단하는 기준이 달라질 것이다. 따라서 수학적으로 이상치를 판별할 수 있는 기준을 마련하는 것이 필요한데, 여기에는 여러 가지 방법이 있지만 여기에서는 크게 interquartile range와 Standard Deviation을 이용한 방법에 대해서 이야기하고자 한다. Interquartile Range(IQR) 를 이용하는 경우 우선 Interquarilte Range 가 무엇인지 이해하기 위해서는 기본적인 분포의 구조부터 이해해야 한다. 어떤 분포가 있을 때, m.. 2022. 4. 25.
반응형