본문 바로가기

데이터 사이언스36

python 에서 한 번에 여러 건의 값을 다른 값으로 replace 데이터를 다루다 보면 한 번에 한 건의 값만 replace를 하는 경우도 있지만 여러 건의 값을 일괄적으로 다른 값들로 replace 하고 싶은 경우도 있다. 보통 다른 웹사이트에서는 한꺼번에 replace 하는 경우에 대해서는 잘 다루고 있지 않아 내가 직접 서치하고 적용해 본 것을 공유한다. 예를 들어서, 2027, 2028, 2029, 2030 은 2021 으로 변경하고, 2023, 2024, 2025, 2026 은 2022 으로 변경 하고 싶다고 하자. 이럴 경우에는 아래와 같이 replace 안에서 dictionary 형식으로 원하는 변환 형태를 선택하고 마지막에 regex = True 로 설정하면 된다. # 연도 변환 # 2027, 2028, 2029, 2030년도: 2021년으로 변경 # 2.. 2024. 1. 28.
데이터 분석가로 취업한 이후의 현실과 난관 극복기 외부기관으로부터 데이터를 전달 받게 된 계기 내가 회사에 데이터 사이언티스트로 채용 되고 나서 알게 된 사실은, 우리 회사에는 사실 분석할 데이터가 없다는 것이었다. 의외로 실제로 이런 일이 종종 있다고 한다. 데이터 분석가를 채용하면서 면접 볼 때에는 그 회사에 데이터가 다 축적이 되어있다고 하고서는 나중에 입사해서 실제로 알고보면 데이터가 없는 말도 안되는 경우이다. 그나마 희망적이었던 것은 우리회사와 관련있는 다른 외부 기관으로부터 데이터를 전달받아 이를 분석하여 제품 품질관리에 사용할 수 있는 기회가 있었다. 나는 팀장님께 말씀드려 해당 프로젝트를 맡고 싶다고 자원했고, 팀장님께서는 승낙 해 주셨다. 하지만 난관의 시작은 그때 부터였다. 외부 기관의 직원들은 협업을 원하지 않았다. 그 프로젝트는 .. 2023. 9. 17.
순수학문 전공자가 데이터 사이언티스트로 전향 하는 이유 순수학문에 대한 열정은 생활고로 이어지기 쉬움 나는 한 때 순수학문인 동물행동학을 연구했었다. 누군가가 농담으로 말하길, 순수학문과 응용학문이 무엇인지 혼란스러울 때에는 이렇게 질문하면 바로 구분하기 쉽다고 한다. 그 질문은 이 학문을 전공해서 먹고살 수 있지 여부이다. 이 이야기를 듣고 내 머리는 망치로 한 대 얻어맞은 것처럼 멍했다. 그게 바로 내가 하던 걱정이었기 때문이다. 야생동물의 행동과 생태에 대해 연구하는 것이 과연 인간의 삶을 윤택하게 하는 것에 대해 어떠한 이점이 있을까에 대해 생각해 보면 와닿는 것이 없다. 그저 내 목표는 순수학문 분야에서의 교수가 되어 죽을 때까지 연구를 하고 후학을 양성하는 삶을 사는 것이었다. 하지만 현실은 그렇게 쉽지 않았다. 내가 교수가 되기 위해서는 박사를 .. 2023. 9. 17.
SK 디스커버리 데이터사이언티스트 포지션 면접 후기 서류접수부터 인성면접까지의 여정 5월 말에 어떤 헤드헌터로부터 SK 디스커버리 데이터사이언티스트 포지션에 지원해볼 것을 제안 받았다. JD를 보니 내가 이제껏 했던 업무와 잘 맞고 내 전공의 일부가 업무 영역의 일부와 일치해서 지원을 결정하게 되었다. 그 때부터 이력서, 자기소개서, 포트폴리오 작성 시작해서 인성검사 (심층역량) 통과하고 1차 면접을 7월 초에 본 후, 탈락 최종 통보를 받기 까지 약 1달이 넘는 오랜 시간이 걸렸다. (이력서, 자기소개서, 포트폴리오는 서류 접수 단계에서 냈는데 나중에 알고보니 헤드헌터가 잘못 알고 포트폴리오도 내야 한다고 했다고 한다;; 그래도 포트폴리오 brush-up 한 건 나중에 또 사용 가능하니 괜찮다.) 기간도 기간이지만 이렇게 준비하는 것이 빡센 면접은 이번.. 2023. 7. 11.
임상 통계에서 샘플 수 산출 하는 법 샘플 수 산출의 목적 통계적 가설을 검증하기 위해 실험을 하게 되면 반드시 필요한 것이 샘플이다. 샘플은 기본적으로 많을 수록 두 집단간의 유의성을 증명하기에 좋으며 샘플 수가 적으면 통계적 결과에 대한 신뢰도가 떨어지게 된다. 하지만 샘플 수가 너무 많으면 현실적으로 샘플을 구하기 어려울 뿐 만 아니라 높은 비용, 시간 투자 등의 면에서 실험의 효율성이 떨어지게 된다. 따라서 두 집단간의 유의성이 있다면 그것을 증명할 만큼의 최소한의 샘플이 몇개인지를 구하는 것이 중요하다. 샘플 수 산출을 위해 알아야 할 기초 개념 - 가설 검증 가설에는 크게 귀무가설, 대립가설이 있다. 귀무 가설은 두 집단 (예를 들어 대조군과 신약 후보물질)간의 효과성에 차이가 없다는 가설이고, 대립가설은 귀무가설을 기각할 정도로.. 2022. 12. 27.
PowerBI 에서 한국지도명 인식이 잘 되지 않을 때 해결 방법 마이크로소프트에서 제공하는 PowerBI를 이용하여 한국 지도를 불러왔더니 서울, 인천 등의 지역명은 지도상에서 잘 인식이 되는 반면, 충청남도 등의 지역은 "남도" 라는 남해의 어느 작은 섬에 라벨이 붙어있었다. PowerBI는 Bing 지도에서 정보를 가져온다는 점에 착안하여 Bing에서는 우리나라 지역명이 어떻게 저장되어 있는지 살펴보았는데 영어명이 내가 생각했던 상식적인 영어명칭과 많이 달라서 의외였다. ~~ 남도, 북도 등으로 끝나는 지명의 경우, 지명 자체가 고유의 영어명이 되는 것이 아니라 South, North 로 표기 된다. (전라남/북도는 South/North Jeolla 등). 하지만 이를 Bing에 나온 그대로의 영어명으로 적용하고 나니, 지역 인식이 지도상에서 문제 없이 잘 된 것.. 2022. 9. 16.
for loop과 fig, ax 사용하여 그림 그리기 import pandas as pd import matplotlib.pyplot as plt df={'channel': ['a', 'a', 'a', 'a','b','b','b','b'], 'x': [1, 2, 3, 4,5,6,7,8], 'y1':[10,20,30,40,50,60,70,80], 'y2':[20,40,60,80, 100, 120, 140, 160], 'y3':[30,60,90,120, 160, 180, 190, 200] } df=pd.DataFrame(df) channel_list = df.channel.unique() nrow=len(df.channel.unique()) ncol=2 fig, ax = plt.subplots(nrow,ncol,figsize=(10,15)) for a,chan.. 2022. 7. 23.
머신러닝 Feature engineering 이 중요한 이유 Feature engineering을 해야 하는 이유 Salary prediction portfolio를 작성하면서 다양한 feature engineering과 hyperparameter tuning을 시도해 보면서 느끼는 점은, 물론 hyperparameter tuning도 중요하지만 feature engineering 만큼 강력하게 예측 정확도에 영향을 주는 것은 없다는 것이다. 특히, feature engineering을 적절하게 하지 못하면 아무리 hyperparameter tuning을 정성 들여하거나 다른 범위로 시도를 해 봐도 예측 정확도가 현저히 떨어지는 사태가 발생한다. 그리고 random forest 나 XGBoost 등의 머신러닝 모델에서의 hyperparamter 중 number o.. 2022. 5. 20.
반응형