본문 바로가기
반응형

분류 전체보기95

머신러닝 모델 적합을 할 때 cross-validation 을 적용한 사례 training dataset을 나누어 validation dataset 만들기 2022년 5월 14일에 포스팅한 월급 예측 포트폴리오 작성 글에서는 포트폴리오를 작성하게 된 배경 및 전처리, 시각화 결과에 대해 설명했다. 이 포스팅은 그에 이어서 분석했는지를 다루고 있다. 내가 다운로드한 데이터에는 feature에 대한 training, test dataset, target에 대한 training data test은 있지만 target에 대한 test dataset은 존재하지 않는다. 즉, 하려고 하는 분석이 비지도 학습이 아닌 지도 학습임에도 불구하고 정답을 예측하더라도 그것이 얼마나 실제로 맞는지 알 수 없다는 것이다. 이런 경우에는 training dataset을 나누어 validation 할 수.. 2022. 5. 15.
머신러닝을 이용한 월급 예측 데이터 분석 포트폴리오 데이터 분석 포트폴리오를 작성하게 된 계기 예전에 내가 가입했던 데이터 사이언스 온라인 코칭 프로그램에는 포트폴리오의 중요성, 어떻게 작성해야 하는지 등에 대해 알려주며 포트폴리오 작성용 데이터셋과 함께 예시 분석 코드도 제공했다. 이를 참고하여 나는 나만의 코드와 분석 방법으로 포트폴리오를 완성하려고 한다. 이전에 나는 코로나 환자의 입원 기간을 예측하는 포트폴리오를 작성하긴 했지만 그때에는 지금보다 훨씬 데이터 분석에 대한 이해도가 낮은 편 이어서 이것을 사용해 취업을 하기가 어렵다는 판단이 들고, 결정적으로 포트폴리오를 계속 작성하지 않으면 나의 데이터 분석 실력이 퇴화하는 것이 느껴진다. 내가 비록 현재 회사에서는 데이터 사이언스 팀에 속해 있지만, 데이터 사이언스에 해당하는 업무를 하기보다는 이.. 2022. 5. 14.
A/B test: 고객의 선호도를 통계적으로 분석하는 방법 A/B test란 무엇인가 A/Btest는 말 그대로 A와 B 중 무엇이 더 좋은지의 선호도를 알아보는 분석 방법이다. A/B test는 여러 가지 통계 방법으로 수행될 수 있기 때문에 그 자체가 통계 분석 기법은 아니고, 여러 통계 기법들이 적용될 수 있는 실험 기법이라고 생각하는 것이 적절하다. 대부분의 경우 User Experience (UX/UI) 분야에서 웹사이트를 제작할 때 사용자들을 대상으로 어떤 웹사이트의 시안이 더 좋을지를 알아보는 데 사용된다. 예를 들어, 어느 의류 판매 업체에서 옷을 판매하기 위한 웹사이트를 구축할 때 가장 신경 써야 할 궁극적인 목표는 보다 많은 고객들이 자신들의 웹사이트에서 실제 구매를 하도록 만드는 것이다. 물론 옷의 품질이나 가격이 적절해야 하지만 기본적으로 .. 2022. 5. 9.
데이터사이언스 포트폴리오 작성법 포트폴리오 작성의 필요성 취업을 하기 위해서는 스스로 어느 정도로 실력이 되는지 객관적으로 다른 사람들에게 보여줄 수 있어야 한다. 포트폴리오 작성에 필요한 주요 단계로는 첫째, 문제 정의, 둘째, 데이터 전처리, 셋째, 모델 적합 후 평가 등이 있으며 이를 수행하는데 필요한 도구에 대해 이야기하고자 한다. 문제 정의 우선, 데이터를 통해 해결하고자 하는 문제가 무엇인지 문서화해야 한다. 분석의 목적이 무엇인지, 그리고 어떤 feature 들을 사용해서 어떤 target을 예측할 것인지, 그 target은 categorical 한 데이터인지, 아니면 numeric 한 데이터 인지 등등에 대한 정보가 필요하다. 그리고 각각의 변수들에 대한 설명이 있어야 한다. 물론, 대부분의 경우 변수의 이름을 보면 대충.. 2022. 5. 7.
선형회귀분석을 위한 전제조건들 선형 회귀분석을 위한 몇 가지 가정 선형 회귀 분석은 독립변수 X를 통해 Y의 값을 예측하기 위한 분석방법이다. 독립변수가 1개인 경우 simple linear regression, 2개 이상인 경우 multiple linear regression으로 나눌 수 있다. 독립변수가 2개 이상이 되면 독립변수 간의 교호 작용(interaction)도 고려해야 하지만, 이번 포스팅에서는 이 부분에 대한 설명보다는 이 분석을 실시하기 위한 5가지 전제조건에 대해 이야기하고자 한다. 이 콘텐츠의 일부는 statology 사이트, 대학원 시절 biometry 수업에서 배웠던 내용 등을 참고했다. 선형 관계 종속변수와 독립변수의 관계가 선형이어야 한다. 즉, Y= ax + b 형태의 1차원 함수로 표현하기에 적절해야 .. 2022. 5. 4.
Confidence interval (신뢰구간) 쉽게 설명하기 Confidence interval (신뢰구간) 식의 구조가설 검정은 신뢰구간(Confidence Interval)의 개념을 이용하기 때문에 이를 먼저 이해해야 한다. 신뢰구간은 다음과 같은 식으로 표현할 수 있다.평균을 중심으로 양 옆으로 퍼져 있는 것 (노란 상자 안에 있는 식)을 Margin of Error라고 하며, 이는 confidence level(1-alpha)에 해당하는 Z value에 SE (Standard Error, standard deviation을 샘플 수의 square root로 나눈 값)를 곱한 값이다.여기서, Z alpha/2 에 해당하는 숫자가 confidence level에 따라 달라진다. Confidence level이란, 여러 개의 샘플을 하나의 모집단에서 반복 추출했.. 2022. 5. 2.
통계 분석에서 사용되는 개념인 Type1, Type2 error 쉽게 설명 Type 1, Type 2 error의 의미 통계적 가설 검정을 실시하여 귀무가설을 기각하거나, 기각하지 않거나 둘 중 하나의 결론이 나오게 되는데 이 결론이 항상 옳다는 보장은 없다. 아무리 심혈을 기울여 가설 검정을 했다고 해도 자신이 내린 결론이 실제 상황과는 달라 틀릴 수 도 있기 때문이며, 이를 error라고 한다. 이 error는 Type 1, Type 2 error로 나누어 볼 수 있는데 이 두 개의 error를 헷갈려하는 사람들이 많고 나 역시 통계를 처음 배울 때에는 계속 헷갈렸던 부분이기 때문에 다른 분들은 처음 배워도 알기 쉽게 설명해보도록 하겠다. Type 1 error는 false positive, Type 2 error는 false negative이다. 여기서 “positive”.. 2022. 5. 1.
[서울 영테크] 청년 무료 재무상담을 통한 개인 자산 관리 현황 체크 서울시 영테크 재무 상담을 신청 올해 2022년에는 서울시에서 무료로 자신의 재무상태를 체크하고 상담을 받아볼 수 있는 기회를 마련해 주고 있다. 나는 이전에 서울시가 아닌 다른 사설기관에서 상담받은 적이 있었는데, 알고 보니 투자상품을 권유하는 것 도 있었고, 어떨 때는 투자상품 권유 절반, 경제상식을 알려주는 것 절반이 섞여있는 강의도 있었다. 하지만 서울시에서 운영하는 재무상담 프로그램에서는 상담사가 만약 투자상품을 권유하면 신고하도록 되어있어 더욱 믿음이 갔다. 상담을 받기 전에 제출해야 하는 자료가 있다. 월평균 수입, 저축, 투자금액, 월평균 지출을 표로 보기 쉽게 만든 것이었다. 나는 평소에 월급여의 총 70~80% 를 저축하고 있었고 은퇴자금도 꾸준히 마련하고 있었기 때문에 나의 재무상태는.. 2022. 4. 28.
반응형