본문 바로가기

데이터 사이언스34

P-value란 무엇이며 Bayesian 통계와는 어떠한 차이가 있는가 P-value의 정의 - P-value의 맨 앞글자인 ‘p’는 probability, 즉 확률을 의미한다. 구체적으로는, 귀무가설이 맞는데도 마치 귀무가설을 기각하는 것 같이 극단적인 결과가 나올 확률이다. 이걸 좀 더 수학적으로 풀어서 설명하자면 랜덤으로 select 한 sample에서 계산된 test statistic이 귀무가설이 맞다는 가정하에서 관측된 값 (critical value 안에 있는 값들) 보다 극단적인 값이 나올 확률이다. - 모집단이 정규분포를 따르고 평균과 표준편차를 안다는 가정 하에서는 쉽게 Z statistic을 계산하고 이에 따라 P-value를 계산할 수 있다, 예를 들어 어떤 장비에 사용되는 특정 부품의 길이가 평균 1.5cm 여야 하는 제품이 있는데 만약 그 길이가 1... 2022. 4. 24.
데이터 클리닝 및 전처리 작업 C언어를 이용한 데이터 클리닝 토양에서 이산화탄소 호흡이 발생하는 현상을 자동으로 측정해 주는 장비로부터 발생한 raw 데이터를 파싱 하여 원하는 통계 값이 계산된 새로운 데이터를 text 파일로 출력하는 프로그램을 C언어로 개발했었다. 처음에는 Python으로 하려고 했었는데, 내가 맨 처음에 가장 많은 시간을 들여서 배운 언어가 C언어이다 보니 파이썬으로 작업하는 것이 불편하게 느껴져서 결국은 C언어로 개발하게 되었다. 그런데 이 작업을 하면서 참 많은 시행착오를 겪었다. 자동으로 측정된 데이터에는 일정한 규칙에 위배되는 이상한 값이 들어가 있는 경우, 데이터가 측정되다가 멈춘 경우 등 여러 가지 예외 사항들이 있었다. 특히 숫자만 있어야 하는 부분에 문자가 섞여 들어간 부분, 특정 행에서의 데이터가.. 2022. 4. 23.
데이터 사이언스 온라인 학회 참관 2020년에 온라인으로 개최된 ODSC 학회 2020년은 코로나의 한 해였다. 당시 나는 미국에 유학 중이었는데 한 번도 온라인으로 학회를 참석한 적이 없었지만 코로나로 인해 국가 비상사태가 선포된 2020년 3월 이후로는 원래 발표 예정인 학회마저도 취소되고 다른 학회는 온라인으로 전환되는 분위기였다. 그래서인지 OPEN DATA SCIENCE Conference (ODSC)에서도 온라인으로 학회를 개최했다. 이 학회는 산업, 의료 등의 분야에서 적용되는 데이터 사이언스 기술에 대한 발표뿐만 아니라 관심 있는 사람들을 대상으로 유료 강좌도 준비한다. ODSC West Virtual Conference는 2020년 10월 27일부터 10월 30일까지 4일에 걸쳐 개최되었으며 40개의 트레이닝 세션, 40.. 2022. 4. 22.
통계분석 및 머신러닝을 이용한 새의 울음소리의 변화 분석 포식자가 나타났을 때, 먹이를 먹을 때에도 나는 “D” 울음소리 내가 해외에서 유학을 할 때 논문에 사용될 데이터를 얻기 위해 숲으로 현장조사를 나가면 종종 박새의 일종인 chickadee와 titmouse 가 먹이를 먹으면서 “D” 울음소리를 많이 내는 것을 관찰했다. 그런데 한 가지 흥미로운 사실은 그 새들은 포식자가 나타난 상황에서도 똑같은 “D” 울음소리를 반복적으로 발생시킨다는 것이다. “D” 울음소리는 그들이 낼 수 있는 여러 가지 울음소리 중 하나일 뿐, “A”, “B”, “C” 등 다른 울음소리도 있는데 정반대의 상황 (포식자가 있는 생존에 불리한 상황, 먹이가 있는 생존에 유리한 상황)에서 같은 “D” 울음소리를 반복적으로 발생시키는 것이 신기하게 느껴졌다. 그래서 그런 현상에서 아이디어.. 2022. 4. 19.
통계기법을 사용한 소음의 정도에 따른 조류의 행동 변화 분석 소음에 취약한 동물들 우리의 청각 기능이 정상인 이상, 어느 정도 소음의 영향을 받으면서 살아간다. 때로는 백색소음이 마음의 안정을 가져다 줄 때도 있지만 너무 시끄러운 소음은 우리를 힘들게 할 것이다. 만약 당신의 이웃이 자신의 집에서 큰 소리로 음악을 틀어 놓거나, 주변에서 공사 소리가 나거나, 비행기가 낮게 날면서 소리가 크게 나면 아마 당신은 최대한 이러한 상황을 피하고 싶고 집중력이 떨어져 행동이 달라질 수도 있다. 예를 들어 이웃에게 그만하라며 큰 소리를 칠 수도 있고 밥을 잘 먹지 못하고 귀를 틀어막을 수도 있다. 이것은 비단 인간에게만 해당되는 이야기는 아니며 동물도 인간 못지않게, 혹은 더 심하게 소음의 영향을 받으며 살아간다. 기존 연구에 의하면 인공 소음(자동차, 항공기, 공사, 야외.. 2022. 4. 19.
비개발자의 언어로 풀어 쓴 API 의 구조와 기능 비개발자가 개발자의 언어를 이해해야 하는 이유 나는 entry level의 데이터 분석가로, 아직 프로그래밍과 IT에 대한 지식이 해박하지 못한 편이다. 이런 상태에서 IT 조직에서 개발자들에게 프로그램 개발 혹은 데이터베이스에 대해 요구사항을 이야기하면 그들은 내가 모르는 IT 용어를 사용하여 서로 커뮤니케이션에 어려움을 겪었다. 예를 들어, 개발자들이 ‘트리거를 발생시킨다’, ‘프런트엔드’, ‘백엔드’, ‘CSS’, ‘API’의 용어를 사용하여 나에게 무언가 설명할 때 이런 용어들은 어디선가 들어봤지만 내가 따로 공부를 하지 않고서는 정확하게 알 수 없는 용어들이었다. 그래서 이런 지식을 쌓기 위해 어떻게 공부를 해야 할지 나름대로 생각해봤으나 IT의 세계는 생각보다 너무나 넓고 방대했다. 그러던 중.. 2022. 4. 18.
중심극한정리를 이용한 가설검정 Frequentist 적인 접근을 하는 통계학에서는 중심극한정리를 바탕으로 가설을 검정하고, p-value를 계산하여 자신의 주장을 뒷받침 할 수 있는 근거를 마련하는 것이 핵심이다. 본 포스팅에서는 중심극한정리의 기본적인 개념, 이것이 가설검정에 어떻게 적용되는지에 대해 알아보도록 하겠다. 중심극한정리란 무엇인가 Population 으로 부터 여러 sample 들을 추출하면 각각의 sample에서의 평균을 구할 수 있다. 이 때, population 의 분포가 normal distribution이 아니더라도 충분히 많은 수의 sample들을 추출하면 그 평균들로 구성된 distribution은 normal distribution 에 가까워진다. 우리가 어떤 population에서 sample 추출을 딱.. 2022. 4. 13.
머신러닝에서 자주 쓰이는 Random Forest, Boosting Random Forest, bagging의 단점을 보완하다 Bagging은 복원추출을 한 관측값들을 대상으로 동일한 모든 feature를 사용하여 예측하기 때문에 tree간의 상관관계가 높아지는 단점이 있다. 이런 문제를 해결 하기 위해서 random forest 기법 에서는 tree마다 랜덤하게 전체 feature 수 P 개 중 m개 (보통 p의 제곱근)만으로 fitting 하는 획기적인 방법을 택한다. 예를 들어 모든 feature 수가 16개이면, 그 것의 제곱근은 4이므로, 결국은 tree 1개마다 4개의 feature를 16개 중에서 random 하게 선택한다. 예를 들어, 1번 tree 에서는 feature 1,4,7,11번째 를 사용, 2번 tree에서는 2,3,5,8번째를 사용 하는 등 각.. 2022. 4. 10.
반응형