본문 바로가기

분류 전체보기59

크롤링으로 구직사이트에서 구직 정보 수집하기 구직사이트인 잡코리아에 있는 정보 중 회사 명, 자격 요건, 우대사항 등의 정보를 수집하고 이것을 자동으로 dataframe 형태로 만들어 주는 작업을 하려고 했다. 개발자모드로 들어가서 커서를 움직여 가며 내가 원하는 정보가 담긴 HTML 구역에서 Xpath 도 뽑아내거나 아니면 그냥 Beautiful soup 으로 HTML 정보를 얻어냈지만 내가 원하는 정보는 나오지 않았다.마지막으로 시도 한 방법은 내가 원하는 정보가 담긴 class 의 이름을 직접 넣어서 찾는 것. 이렇게 했더니 드디어 나왔다.  맨 처음 시도 한 것. 이렇게 했을 때 에러는 안나지만 soup 변수에 내가 원하는 정보는 안들어가 있었음.from selenium import webdriverfrom selenium.webdriver.. 2024. 7. 16.
데이터 거버넌스: 표준화를 안하면 어떻게 될까 Cluade 에게 data governance 측면에서 한 연구소 내에서 개발한 2개의 software 에서 동일한 변수가 다른 데이터 타입으로 저장되어 있다면 무슨 문제가 생길지에 대해 물어봤다. 데이터 표준화 관점에서 문제가 있을 것이라고 막연히 생각했는데 claude 가 세분화 된 답변을 줬다. 참고로 내가 질문한 문장은 다음과 같다. Suppose there are two different softwares developed in the same lab, but some of variables are stored in a different data type. For example, variable A is stored as an int type but in other software, variab.. 2024. 7. 11.
python 에서 한 번에 여러 건의 값을 다른 값으로 replace 데이터를 다루다 보면 한 번에 한 건의 값만 replace를 하는 경우도 있지만 여러 건의 값을 일괄적으로 다른 값들로 replace 하고 싶은 경우도 있다. 보통 다른 웹사이트에서는 한꺼번에 replace 하는 경우에 대해서는 잘 다루고 있지 않아 내가 직접 서치하고 적용해 본 것을 공유한다. 예를 들어서, 2027, 2028, 2029, 2030 은 2021 으로 변경하고, 2023, 2024, 2025, 2026 은 2022 으로 변경 하고 싶다고 하자. 이럴 경우에는 아래와 같이 replace 안에서 dictionary 형식으로 원하는 변환 형태를 선택하고 마지막에 regex = True 로 설정하면 된다. # 연도 변환 # 2027, 2028, 2029, 2030년도: 2021년으로 변경 # 2.. 2024. 1. 28.
자기비난의 굴레에서 벗어나기 우울증 환자들이 부정적인 상황을 인지하는 공통적 패턴 마인드카페에서 데일리 프로그램으로 마음챙김을 하고 있는데 이번에는 우울증에 걸리는 사람들이 부정적인 일에 대해 바라보는 공통적인 패턴에 대해 알게 되었다. 주로 부정적인 일은 타인보다 자신때문에 일어났다고 믿으며, 이러한 믿음은 고정적이며, 특수한 상황보다는 전반적인 상황에서 그렇게 믿는다고 한다. 이를 나의 상황에도 한 번 대입 해 봤다. 나는 어떤 안좋은 일이 생기면 그건 대부분 나의 모자람으로 인해 일어났다고 믿는 편이며, 반대로는 좋은 일 (예를 들어 미국 박사학위 취득, 약간..? 좋은 직장 취직 등) 이 생기면 그건 나는 많이 부족한데 타인이 인심 써줘서 일어난 일이라 믿는다. 이는 내가 좋아하는 고전 소설인 다자이 오사무의 ‘인간실격’ 주.. 2023. 10. 6.
데이터 분석가로 취업한 이후의 현실과 난관 극복기 외부기관으로부터 데이터를 전달 받게 된 계기 내가 회사에 데이터 사이언티스트로 채용 되고 나서 알게 된 사실은, 우리 회사에는 사실 분석할 데이터가 없다는 것이었다. 의외로 실제로 이런 일이 종종 있다고 한다. 데이터 분석가를 채용하면서 면접 볼 때에는 그 회사에 데이터가 다 축적이 되어있다고 하고서는 나중에 입사해서 실제로 알고보면 데이터가 없는 말도 안되는 경우이다. 그나마 희망적이었던 것은 우리회사와 관련있는 다른 외부 기관으로부터 데이터를 전달받아 이를 분석하여 제품 품질관리에 사용할 수 있는 기회가 있었다. 나는 팀장님께 말씀드려 해당 프로젝트를 맡고 싶다고 자원했고, 팀장님께서는 승낙 해 주셨다. 하지만 난관의 시작은 그때 부터였다. 외부 기관의 직원들은 협업을 원하지 않았다. 그 프로젝트는 .. 2023. 9. 17.
순수학문 전공자가 데이터 사이언티스트로 전향 하는 이유 순수학문에 대한 열정은 생활고로 이어지기 쉬움 나는 한 때 순수학문인 동물행동학을 연구했었다. 누군가가 농담으로 말하길, 순수학문과 응용학문이 무엇인지 혼란스러울 때에는 이렇게 질문하면 바로 구분하기 쉽다고 한다. 그 질문은 이 학문을 전공해서 먹고살 수 있지 여부이다. 이 이야기를 듣고 내 머리는 망치로 한 대 얻어맞은 것처럼 멍했다. 그게 바로 내가 하던 걱정이었기 때문이다. 야생동물의 행동과 생태에 대해 연구하는 것이 과연 인간의 삶을 윤택하게 하는 것에 대해 어떠한 이점이 있을까에 대해 생각해 보면 와닿는 것이 없다. 그저 내 목표는 순수학문 분야에서의 교수가 되어 죽을 때까지 연구를 하고 후학을 양성하는 삶을 사는 것이었다. 하지만 현실은 그렇게 쉽지 않았다. 내가 교수가 되기 위해서는 박사를 .. 2023. 9. 17.
SK 디스커버리 데이터사이언티스트 포지션 면접 후기 서류접수부터 인성면접까지의 여정 5월 말에 어떤 헤드헌터로부터 SK 디스커버리 데이터사이언티스트 포지션에 지원해볼 것을 제안 받았다. JD를 보니 내가 이제껏 했던 업무와 잘 맞고 내 전공의 일부가 업무 영역의 일부와 일치해서 지원을 결정하게 되었다. 그 때부터 이력서, 자기소개서, 포트폴리오 작성 시작해서 인성검사 (심층역량) 통과하고 1차 면접을 7월 초에 본 후, 탈락 최종 통보를 받기 까지 약 1달이 넘는 오랜 시간이 걸렸다. (이력서, 자기소개서, 포트폴리오는 서류 접수 단계에서 냈는데 나중에 알고보니 헤드헌터가 잘못 알고 포트폴리오도 내야 한다고 했다고 한다;; 그래도 포트폴리오 brush-up 한 건 나중에 또 사용 가능하니 괜찮다.) 기간도 기간이지만 이렇게 준비하는 것이 빡센 면접은 이번.. 2023. 7. 11.
끌어당김의 법칙을 인생에 적용하기 나는 내가 원하는 것이 무엇인지 아는가 만약 당장 내 눈앞에 지니가 나타나서 소원을 들어주겠다고 해도 난 무엇을 빌어야 할지 모르겠다. 예전에 박사과정 하기 전에 난 나 자신이 숲 속에서 마이크와 연구 장비들을 들고 다니며 하고 싶은 연구를 하는 모습을 생각하며 가슴 벅차하곤 했었고 실제로 수도 없이 많은, 100명이 넘는 교수님들께 컨택한 끝에 나를 제자로 받아줄 교수님을 만나게 되고 미국으로 장학금과 생활비를 받을 수 있게 되어 유학을 갔다. 그런데 이상하게도 바로 내가 불과 몇 년 전 그렇게나 원하던 그림대로 내가 산에서 새를 조사하며 새의 울음소리를 녹음하기 위해 숲에서 마이크를 들고 다닐 때, 나는 말도 못 할 중압감, 우울감, 수치심에 시달리다 못해 자살 충동 까지 수시로 들었다. 그 이유는 .. 2023. 4. 30.
반응형