본문 바로가기

전체 글59

금융 컨설팅: 파인애플 (finapple) 과 서울 영테크 비교 파인애플 무료 재무 컨설팅 파인애플에서 무료로 현재 내 자산관리에 대한 컨설팅을 받았다. 재테크 베스트셀러인 에도 나오는 현금흐름표를 통해 내 재무 상태에 대해 더 자세히 알 수 있었다. 가장 두드러지게 나타난 것은 나에게는 자산소득은 전혀 없고 근로소득만 있다는 것이었다. 자산소득은 임대, 연금 (국민연금 및 퇴직연금), 주식이나 채권 등의 금융 소득 등이 있지만 내가 상담받을 당시에는 오직 근로소득이 전부였다. 자본주의 시스템에서 근로소득만 있다는 것은 거의 늙어도 계속 노동을 해야만 소득이 생긴다는 뜻으로, 이는 자본주의 사회에서 생존하기 취약함을 뜻한다. 자본주의 체제에서 살아남기 위해서는 돈이 돈을 자동으로 벌 수 있는 파이프라인을 구축하는 것이 필요한데, 이를 위해서 내가 생각했을 때에는 일단.. 2022. 5. 31.
청년 무료 자산관리 상담은 서울시 영테크과 함께 서울 영테크, 청년 재테크 무료 자산관리 컨설팅 지원 사업 청년층은 중장년층에 비해 자산을 축적하는 것이 어렵고 아직 충분한 재테크 교육을 받지 못한 경우가 많은데, 이런 청년들이 경제적으로 자립하는데 도움이 되고자 무료로 재테크 교육, 1:1 상담을 제공하는 사업이다. 단, 나이와 거주지역에 제한이 있다. 나이: 만 19~39세 거주지역: 서울 이 두 가지 요건을 충족시켜야 신청할 수 있다. 만 39세까지를 청년이라고 해 준것은 관대해 보이지만 실제로 청년이 자립하면 서울의 외곽에서 사는 경우도 많은데, 이런 부분은 제한이 풀렸으면 하는 바람이 있다. 서울 영테크 상담 신청방법 youth.seoul.go.kr 에 접속하면 아래와 같이 메인 화면에 서울 영테크 상담 신청 페이지로 가는 화면이 나온다. 이.. 2022. 5. 30.
머신러닝 Feature engineering 이 중요한 이유 Feature engineering을 해야 하는 이유 Salary prediction portfolio를 작성하면서 다양한 feature engineering과 hyperparameter tuning을 시도해 보면서 느끼는 점은, 물론 hyperparameter tuning도 중요하지만 feature engineering 만큼 강력하게 예측 정확도에 영향을 주는 것은 없다는 것이다. 특히, feature engineering을 적절하게 하지 못하면 아무리 hyperparameter tuning을 정성 들여하거나 다른 범위로 시도를 해 봐도 예측 정확도가 현저히 떨어지는 사태가 발생한다. 그리고 random forest 나 XGBoost 등의 머신러닝 모델에서의 hyperparamter 중 number o.. 2022. 5. 20.
Hyperparameter 를 manual하게 tuning하는 것이 어려운 이유 Hyperparameter tuning 이 실패한 경우 number of estimator 를 200부터 1000까지의 범위로 설정하고, maximum feature의 개수 (하나의 tree model에서 사용될 최대의 feature 수)는 전체 feature의 개수의 square root 가 되도록, 설정했다. 그리고 maximum depth는 2부터 100까지 일정 간격으로 띄워서 자동으로 10개의 숫자가 나오도록 했다. minimum sample split은 무작위로 2, 5, 10 중의 하나가 되도록 하고, min samples leaf 는 1,2,4 중 하나의 숫자를 할당했다. 그리고 boot strap 여부도 무작위로 할것인지, 아니면 하지 않을 것인지를 정하도록 했다. 그리고 5-fold c.. 2022. 5. 17.
머신러닝 모델 적합을 할 때 cross-validation 을 적용한 사례 training dataset을 나누어 validation dataset 만들기 2022년 5월 14일에 포스팅한 월급 예측 포트폴리오 작성 글에서는 포트폴리오를 작성하게 된 배경 및 전처리, 시각화 결과에 대해 설명했다. 이 포스팅은 그에 이어서 분석했는지를 다루고 있다. 내가 다운로드한 데이터에는 feature에 대한 training, test dataset, target에 대한 training data test은 있지만 target에 대한 test dataset은 존재하지 않는다. 즉, 하려고 하는 분석이 비지도 학습이 아닌 지도 학습임에도 불구하고 정답을 예측하더라도 그것이 얼마나 실제로 맞는지 알 수 없다는 것이다. 이런 경우에는 training dataset을 나누어 validation 할 수.. 2022. 5. 15.
머신러닝을 이용한 월급 예측 데이터 분석 포트폴리오 데이터 분석 포트폴리오를 작성하게 된 계기 예전에 내가 가입했던 데이터 사이언스 온라인 코칭 프로그램에는 포트폴리오의 중요성, 어떻게 작성해야 하는지 등에 대해 알려주며 포트폴리오 작성용 데이터셋과 함께 예시 분석 코드도 제공했다. 이를 참고하여 나는 나만의 코드와 분석 방법으로 포트폴리오를 완성하려고 한다. 이전에 나는 코로나 환자의 입원 기간을 예측하는 포트폴리오를 작성하긴 했지만 그때에는 지금보다 훨씬 데이터 분석에 대한 이해도가 낮은 편 이어서 이것을 사용해 취업을 하기가 어렵다는 판단이 들고, 결정적으로 포트폴리오를 계속 작성하지 않으면 나의 데이터 분석 실력이 퇴화하는 것이 느껴진다. 내가 비록 현재 회사에서는 데이터 사이언스 팀에 속해 있지만, 데이터 사이언스에 해당하는 업무를 하기보다는 이.. 2022. 5. 14.
A/B test: 고객의 선호도를 통계적으로 분석하는 방법 A/B test란 무엇인가 A/Btest는 말 그대로 A와 B 중 무엇이 더 좋은지의 선호도를 알아보는 분석 방법이다. A/B test는 여러 가지 통계 방법으로 수행될 수 있기 때문에 그 자체가 통계 분석 기법은 아니고, 여러 통계 기법들이 적용될 수 있는 실험 기법이라고 생각하는 것이 적절하다. 대부분의 경우 User Experience (UX/UI) 분야에서 웹사이트를 제작할 때 사용자들을 대상으로 어떤 웹사이트의 시안이 더 좋을지를 알아보는 데 사용된다. 예를 들어, 어느 의류 판매 업체에서 옷을 판매하기 위한 웹사이트를 구축할 때 가장 신경 써야 할 궁극적인 목표는 보다 많은 고객들이 자신들의 웹사이트에서 실제 구매를 하도록 만드는 것이다. 물론 옷의 품질이나 가격이 적절해야 하지만 기본적으로 .. 2022. 5. 9.
데이터사이언스 포트폴리오 작성법 포트폴리오 작성의 필요성 취업을 하기 위해서는 스스로 어느 정도로 실력이 되는지 객관적으로 다른 사람들에게 보여줄 수 있어야 한다. 포트폴리오 작성에 필요한 주요 단계로는 첫째, 문제 정의, 둘째, 데이터 전처리, 셋째, 모델 적합 후 평가 등이 있으며 이를 수행하는데 필요한 도구에 대해 이야기하고자 한다. 문제 정의 우선, 데이터를 통해 해결하고자 하는 문제가 무엇인지 문서화해야 한다. 분석의 목적이 무엇인지, 그리고 어떤 feature 들을 사용해서 어떤 target을 예측할 것인지, 그 target은 categorical 한 데이터인지, 아니면 numeric 한 데이터 인지 등등에 대한 정보가 필요하다. 그리고 각각의 변수들에 대한 설명이 있어야 한다. 물론, 대부분의 경우 변수의 이름을 보면 대충.. 2022. 5. 7.
반응형