본문 바로가기

데이터 사이언스36

Hyperparameter 를 manual하게 tuning하는 것이 어려운 이유 Hyperparameter tuning 이 실패한 경우 number of estimator 를 200부터 1000까지의 범위로 설정하고, maximum feature의 개수 (하나의 tree model에서 사용될 최대의 feature 수)는 전체 feature의 개수의 square root 가 되도록, 설정했다. 그리고 maximum depth는 2부터 100까지 일정 간격으로 띄워서 자동으로 10개의 숫자가 나오도록 했다. minimum sample split은 무작위로 2, 5, 10 중의 하나가 되도록 하고, min samples leaf 는 1,2,4 중 하나의 숫자를 할당했다. 그리고 boot strap 여부도 무작위로 할것인지, 아니면 하지 않을 것인지를 정하도록 했다. 그리고 5-fold c.. 2022. 5. 17.
머신러닝 모델 적합을 할 때 cross-validation 을 적용한 사례 training dataset을 나누어 validation dataset 만들기 2022년 5월 14일에 포스팅한 월급 예측 포트폴리오 작성 글에서는 포트폴리오를 작성하게 된 배경 및 전처리, 시각화 결과에 대해 설명했다. 이 포스팅은 그에 이어서 분석했는지를 다루고 있다. 내가 다운로드한 데이터에는 feature에 대한 training, test dataset, target에 대한 training data test은 있지만 target에 대한 test dataset은 존재하지 않는다. 즉, 하려고 하는 분석이 비지도 학습이 아닌 지도 학습임에도 불구하고 정답을 예측하더라도 그것이 얼마나 실제로 맞는지 알 수 없다는 것이다. 이런 경우에는 training dataset을 나누어 validation 할 수.. 2022. 5. 15.
머신러닝을 이용한 월급 예측 데이터 분석 포트폴리오 데이터 분석 포트폴리오를 작성하게 된 계기 예전에 내가 가입했던 데이터 사이언스 온라인 코칭 프로그램에는 포트폴리오의 중요성, 어떻게 작성해야 하는지 등에 대해 알려주며 포트폴리오 작성용 데이터셋과 함께 예시 분석 코드도 제공했다. 이를 참고하여 나는 나만의 코드와 분석 방법으로 포트폴리오를 완성하려고 한다. 이전에 나는 코로나 환자의 입원 기간을 예측하는 포트폴리오를 작성하긴 했지만 그때에는 지금보다 훨씬 데이터 분석에 대한 이해도가 낮은 편 이어서 이것을 사용해 취업을 하기가 어렵다는 판단이 들고, 결정적으로 포트폴리오를 계속 작성하지 않으면 나의 데이터 분석 실력이 퇴화하는 것이 느껴진다. 내가 비록 현재 회사에서는 데이터 사이언스 팀에 속해 있지만, 데이터 사이언스에 해당하는 업무를 하기보다는 이.. 2022. 5. 14.
A/B test: 고객의 선호도를 통계적으로 분석하는 방법 A/B test란 무엇인가 A/Btest는 말 그대로 A와 B 중 무엇이 더 좋은지의 선호도를 알아보는 분석 방법이다. A/B test는 여러 가지 통계 방법으로 수행될 수 있기 때문에 그 자체가 통계 분석 기법은 아니고, 여러 통계 기법들이 적용될 수 있는 실험 기법이라고 생각하는 것이 적절하다. 대부분의 경우 User Experience (UX/UI) 분야에서 웹사이트를 제작할 때 사용자들을 대상으로 어떤 웹사이트의 시안이 더 좋을지를 알아보는 데 사용된다. 예를 들어, 어느 의류 판매 업체에서 옷을 판매하기 위한 웹사이트를 구축할 때 가장 신경 써야 할 궁극적인 목표는 보다 많은 고객들이 자신들의 웹사이트에서 실제 구매를 하도록 만드는 것이다. 물론 옷의 품질이나 가격이 적절해야 하지만 기본적으로 .. 2022. 5. 9.
데이터사이언스 포트폴리오 작성법 포트폴리오 작성의 필요성 취업을 하기 위해서는 스스로 어느 정도로 실력이 되는지 객관적으로 다른 사람들에게 보여줄 수 있어야 한다. 포트폴리오 작성에 필요한 주요 단계로는 첫째, 문제 정의, 둘째, 데이터 전처리, 셋째, 모델 적합 후 평가 등이 있으며 이를 수행하는데 필요한 도구에 대해 이야기하고자 한다. 문제 정의 우선, 데이터를 통해 해결하고자 하는 문제가 무엇인지 문서화해야 한다. 분석의 목적이 무엇인지, 그리고 어떤 feature 들을 사용해서 어떤 target을 예측할 것인지, 그 target은 categorical 한 데이터인지, 아니면 numeric 한 데이터 인지 등등에 대한 정보가 필요하다. 그리고 각각의 변수들에 대한 설명이 있어야 한다. 물론, 대부분의 경우 변수의 이름을 보면 대충.. 2022. 5. 7.
선형회귀분석을 위한 전제조건들 선형 회귀분석을 위한 몇 가지 가정 선형 회귀 분석은 독립변수 X를 통해 Y의 값을 예측하기 위한 분석방법이다. 독립변수가 1개인 경우 simple linear regression, 2개 이상인 경우 multiple linear regression으로 나눌 수 있다. 독립변수가 2개 이상이 되면 독립변수 간의 교호 작용(interaction)도 고려해야 하지만, 이번 포스팅에서는 이 부분에 대한 설명보다는 이 분석을 실시하기 위한 5가지 전제조건에 대해 이야기하고자 한다. 이 콘텐츠의 일부는 statology 사이트, 대학원 시절 biometry 수업에서 배웠던 내용 등을 참고했다. 선형 관계 종속변수와 독립변수의 관계가 선형이어야 한다. 즉, Y= ax + b 형태의 1차원 함수로 표현하기에 적절해야 .. 2022. 5. 4.
Confidence interval (신뢰구간) 쉽게 설명하기 Confidence interval (신뢰구간) 식의 구조 가설 검정은 신뢰구간(Confidence Interval)의 개념을 이용하기 때문에 이를 먼저 이해해야 한다. 신뢰구간은 다음과 같은 식으로 표현할 수 있다. 평균을 중심으로 양 옆으로 퍼져 있는 것 (노란 상자 안에 있는 식)을 Margin of Error라고 하며, 이는 confidence level(1-alpha)에 해당하는 Z value에 SE (Standard Error, standard deviation을 샘플 수의 square root로 나눈 값)를 곱한 값이다. 여기서, Z alpha/2 에 해당하는 숫자가 confidence level에 따라 달라진다. Confidence level이란, 여러 개의 샘플을 하나의 모집단에서 반복 .. 2022. 5. 2.
통계 분석에서 사용되는 개념인 Type1, Type2 error 쉽게 설명 Type 1, Type 2 error의 의미 통계적 가설 검정을 실시하여 귀무가설을 기각하거나, 기각하지 않거나 둘 중 하나의 결론이 나오게 되는데 이 결론이 항상 옳다는 보장은 없다. 아무리 심혈을 기울여 가설 검정을 했다고 해도 자신이 내린 결론이 실제 상황과는 달라 틀릴 수 도 있기 때문이며, 이를 error라고 한다. 이 error는 Type 1, Type 2 error로 나누어 볼 수 있는데 이 두 개의 error를 헷갈려하는 사람들이 많고 나 역시 통계를 처음 배울 때에는 계속 헷갈렸던 부분이기 때문에 다른 분들은 처음 배워도 알기 쉽게 설명해보도록 하겠다. Type 1 error는 false positive, Type 2 error는 false negative이다. 여기서 “positive”.. 2022. 5. 1.
반응형