본문 바로가기

전체 글62

머신러닝을 이용한 월급 예측 데이터 분석 포트폴리오 데이터 분석 포트폴리오를 작성하게 된 계기 예전에 내가 가입했던 데이터 사이언스 온라인 코칭 프로그램에는 포트폴리오의 중요성, 어떻게 작성해야 하는지 등에 대해 알려주며 포트폴리오 작성용 데이터셋과 함께 예시 분석 코드도 제공했다. 이를 참고하여 나는 나만의 코드와 분석 방법으로 포트폴리오를 완성하려고 한다. 이전에 나는 코로나 환자의 입원 기간을 예측하는 포트폴리오를 작성하긴 했지만 그때에는 지금보다 훨씬 데이터 분석에 대한 이해도가 낮은 편 이어서 이것을 사용해 취업을 하기가 어렵다는 판단이 들고, 결정적으로 포트폴리오를 계속 작성하지 않으면 나의 데이터 분석 실력이 퇴화하는 것이 느껴진다. 내가 비록 현재 회사에서는 데이터 사이언스 팀에 속해 있지만, 데이터 사이언스에 해당하는 업무를 하기보다는 이.. 2022. 5. 14.
A/B test: 고객의 선호도를 통계적으로 분석하는 방법 A/B test란 무엇인가 A/Btest는 말 그대로 A와 B 중 무엇이 더 좋은지의 선호도를 알아보는 분석 방법이다. A/B test는 여러 가지 통계 방법으로 수행될 수 있기 때문에 그 자체가 통계 분석 기법은 아니고, 여러 통계 기법들이 적용될 수 있는 실험 기법이라고 생각하는 것이 적절하다. 대부분의 경우 User Experience (UX/UI) 분야에서 웹사이트를 제작할 때 사용자들을 대상으로 어떤 웹사이트의 시안이 더 좋을지를 알아보는 데 사용된다. 예를 들어, 어느 의류 판매 업체에서 옷을 판매하기 위한 웹사이트를 구축할 때 가장 신경 써야 할 궁극적인 목표는 보다 많은 고객들이 자신들의 웹사이트에서 실제 구매를 하도록 만드는 것이다. 물론 옷의 품질이나 가격이 적절해야 하지만 기본적으로 .. 2022. 5. 9.
데이터사이언스 포트폴리오 작성법 포트폴리오 작성의 필요성 취업을 하기 위해서는 스스로 어느 정도로 실력이 되는지 객관적으로 다른 사람들에게 보여줄 수 있어야 한다. 포트폴리오 작성에 필요한 주요 단계로는 첫째, 문제 정의, 둘째, 데이터 전처리, 셋째, 모델 적합 후 평가 등이 있으며 이를 수행하는데 필요한 도구에 대해 이야기하고자 한다. 문제 정의 우선, 데이터를 통해 해결하고자 하는 문제가 무엇인지 문서화해야 한다. 분석의 목적이 무엇인지, 그리고 어떤 feature 들을 사용해서 어떤 target을 예측할 것인지, 그 target은 categorical 한 데이터인지, 아니면 numeric 한 데이터 인지 등등에 대한 정보가 필요하다. 그리고 각각의 변수들에 대한 설명이 있어야 한다. 물론, 대부분의 경우 변수의 이름을 보면 대충.. 2022. 5. 7.
선형회귀분석을 위한 전제조건들 선형 회귀분석을 위한 몇 가지 가정 선형 회귀 분석은 독립변수 X를 통해 Y의 값을 예측하기 위한 분석방법이다. 독립변수가 1개인 경우 simple linear regression, 2개 이상인 경우 multiple linear regression으로 나눌 수 있다. 독립변수가 2개 이상이 되면 독립변수 간의 교호 작용(interaction)도 고려해야 하지만, 이번 포스팅에서는 이 부분에 대한 설명보다는 이 분석을 실시하기 위한 5가지 전제조건에 대해 이야기하고자 한다. 이 콘텐츠의 일부는 statology 사이트, 대학원 시절 biometry 수업에서 배웠던 내용 등을 참고했다. 선형 관계 종속변수와 독립변수의 관계가 선형이어야 한다. 즉, Y= ax + b 형태의 1차원 함수로 표현하기에 적절해야 .. 2022. 5. 4.
Confidence interval (신뢰구간) 쉽게 설명하기 Confidence interval (신뢰구간) 식의 구조 가설 검정은 신뢰구간(Confidence Interval)의 개념을 이용하기 때문에 이를 먼저 이해해야 한다. 신뢰구간은 다음과 같은 식으로 표현할 수 있다. 평균을 중심으로 양 옆으로 퍼져 있는 것 (노란 상자 안에 있는 식)을 Margin of Error라고 하며, 이는 confidence level(1-alpha)에 해당하는 Z value에 SE (Standard Error, standard deviation을 샘플 수의 square root로 나눈 값)를 곱한 값이다. 여기서, Z alpha/2 에 해당하는 숫자가 confidence level에 따라 달라진다. Confidence level이란, 여러 개의 샘플을 하나의 모집단에서 반복 .. 2022. 5. 2.
통계 분석에서 사용되는 개념인 Type1, Type2 error 쉽게 설명 Type 1, Type 2 error의 의미 통계적 가설 검정을 실시하여 귀무가설을 기각하거나, 기각하지 않거나 둘 중 하나의 결론이 나오게 되는데 이 결론이 항상 옳다는 보장은 없다. 아무리 심혈을 기울여 가설 검정을 했다고 해도 자신이 내린 결론이 실제 상황과는 달라 틀릴 수 도 있기 때문이며, 이를 error라고 한다. 이 error는 Type 1, Type 2 error로 나누어 볼 수 있는데 이 두 개의 error를 헷갈려하는 사람들이 많고 나 역시 통계를 처음 배울 때에는 계속 헷갈렸던 부분이기 때문에 다른 분들은 처음 배워도 알기 쉽게 설명해보도록 하겠다. Type 1 error는 false positive, Type 2 error는 false negative이다. 여기서 “positive”.. 2022. 5. 1.
[서울 영테크] 청년 무료 재무상담을 통한 개인 자산 관리 현황 체크 서울시 영테크 재무 상담을 신청 올해 2022년에는 서울시에서 무료로 자신의 재무상태를 체크하고 상담을 받아볼 수 있는 기회를 마련해 주고 있다. 나는 이전에 서울시가 아닌 다른 사설기관에서 상담받은 적이 있었는데, 알고 보니 투자상품을 권유하는 것 도 있었고, 어떨 때는 투자상품 권유 절반, 경제상식을 알려주는 것 절반이 섞여있는 강의도 있었다. 하지만 서울시에서 운영하는 재무상담 프로그램에서는 상담사가 만약 투자상품을 권유하면 신고하도록 되어있어 더욱 믿음이 갔다. 상담을 받기 전에 제출해야 하는 자료가 있다. 월평균 수입, 저축, 투자금액, 월평균 지출을 표로 보기 쉽게 만든 것이었다. 나는 평소에 월급여의 총 70~80% 를 저축하고 있었고 은퇴자금도 꾸준히 마련하고 있었기 때문에 나의 재무상태는.. 2022. 4. 28.
마음챙김: 감정 관찰을 통해 과도한 스트레스로부터 해방되기 스트레스를 받으며 살아가는 현대인들 살아가면서 적절한 수준의 스트레스를 받는 것은 우리의 건강을 유지하는데 도움을 준다. 하지만 대부분 스트레스를 적게 받아서 문제가 일어나는 것보다는 스트레스를 너무 많이 받아 문제가 일어나는 경우가 더 흔하다. 그만큼 현대인들은 스트레스에 취약하고 실제로 스트레스를 받을 일이 많이 일어난다. 학생의 경우 성적에 대한 고민, 결혼을 하지 못한 사람은 자신이 좋은 짝을 찾지 못해 좌절하고, 결혼을 한 사람은 자신의 배우자가 마음에 안 든다며 후회한다. 직장인의 경우 업무 성과를 내지 못했을 때 직장 상사로부터 압박을 받기도 한다. 직장이 없는 자영업자들은 경기가 좋지 않을 때 돈을 벌지 못하여 스트레스를 받고, 심지어 은퇴한 사람은 자신은 그런 직장마저도 없다며 우울해한다.. 2022. 4. 27.
반응형