본문 바로가기

데이터 사이언스36

주성분분석(PCA)과 정준상관분석(CCA) 주성분 분석 주성분 분석(principal component analysis, PCA)과 정준 상관분석(canonical correlation analysis, CCA)은 많은 변수로 구성된 고차원을 저 차원으로 축소한다는 점에서 공통점이 있다. 이번 글에서는 주성분 분석과 정준 상관분석의 차이점, 정준 상관분석이 사용된 사례에 대해 소개하고자 하며 이를 위해 도서 An Introduction to statistical learning, 펜실베이니아 주립대학교의 온라인 통계 학습자료를 참고하였다. 주성분 분석은 독립변수들이 많아 고차원이 되는 경우, 이를 주성분 (principal component)으로 줄이는 방법이다. 이를 이용하면 관측 대상을 유사한 특성별로 쉽게 나눌 수 있는 장점이 있다. (하지.. 2022. 4. 26.
통계 분석에서의 이상치(outlier) 판별 기준 이상치를 판별할 수 있는 객관적인 기준 마련의 필요성 데이터를 모으면 일반적인 관측값과 차이가 많이 나는 특이한 값들이 관찰되는 경우가 종종 있다. 우리가 객관적인 기준 없이 주관적으로 생각했을 때는 사람마다 어느 값을 벗어나면 이상치라고 판단하는 기준이 달라질 것이다. 따라서 수학적으로 이상치를 판별할 수 있는 기준을 마련하는 것이 필요한데, 여기에는 여러 가지 방법이 있지만 여기에서는 크게 interquartile range와 Standard Deviation을 이용한 방법에 대해서 이야기하고자 한다. Interquartile Range(IQR) 를 이용하는 경우 우선 Interquarilte Range 가 무엇인지 이해하기 위해서는 기본적인 분포의 구조부터 이해해야 한다. 어떤 분포가 있을 때, m.. 2022. 4. 25.
P-value란 무엇이며 Bayesian 통계와는 어떠한 차이가 있는가 P-value의 정의 - P-value의 맨 앞글자인 ‘p’는 probability, 즉 확률을 의미한다. 구체적으로는, 귀무가설이 맞는데도 마치 귀무가설을 기각하는 것 같이 극단적인 결과가 나올 확률이다. 이걸 좀 더 수학적으로 풀어서 설명하자면 랜덤으로 select 한 sample에서 계산된 test statistic이 귀무가설이 맞다는 가정하에서 관측된 값 (critical value 안에 있는 값들) 보다 극단적인 값이 나올 확률이다. - 모집단이 정규분포를 따르고 평균과 표준편차를 안다는 가정 하에서는 쉽게 Z statistic을 계산하고 이에 따라 P-value를 계산할 수 있다, 예를 들어 어떤 장비에 사용되는 특정 부품의 길이가 평균 1.5cm 여야 하는 제품이 있는데 만약 그 길이가 1... 2022. 4. 24.
데이터 클리닝 및 전처리 작업 C언어를 이용한 데이터 클리닝 토양에서 이산화탄소 호흡이 발생하는 현상을 자동으로 측정해 주는 장비로부터 발생한 raw 데이터를 파싱 하여 원하는 통계 값이 계산된 새로운 데이터를 text 파일로 출력하는 프로그램을 C언어로 개발했었다. 처음에는 Python으로 하려고 했었는데, 내가 맨 처음에 가장 많은 시간을 들여서 배운 언어가 C언어이다 보니 파이썬으로 작업하는 것이 불편하게 느껴져서 결국은 C언어로 개발하게 되었다. 그런데 이 작업을 하면서 참 많은 시행착오를 겪었다. 자동으로 측정된 데이터에는 일정한 규칙에 위배되는 이상한 값이 들어가 있는 경우, 데이터가 측정되다가 멈춘 경우 등 여러 가지 예외 사항들이 있었다. 특히 숫자만 있어야 하는 부분에 문자가 섞여 들어간 부분, 특정 행에서의 데이터가.. 2022. 4. 23.
데이터 사이언스 온라인 학회 참관 2020년에 온라인으로 개최된 ODSC 학회 2020년은 코로나의 한 해였다. 당시 나는 미국에 유학 중이었는데 한 번도 온라인으로 학회를 참석한 적이 없었지만 코로나로 인해 국가 비상사태가 선포된 2020년 3월 이후로는 원래 발표 예정인 학회마저도 취소되고 다른 학회는 온라인으로 전환되는 분위기였다. 그래서인지 OPEN DATA SCIENCE Conference (ODSC)에서도 온라인으로 학회를 개최했다. 이 학회는 산업, 의료 등의 분야에서 적용되는 데이터 사이언스 기술에 대한 발표뿐만 아니라 관심 있는 사람들을 대상으로 유료 강좌도 준비한다. ODSC West Virtual Conference는 2020년 10월 27일부터 10월 30일까지 4일에 걸쳐 개최되었으며 40개의 트레이닝 세션, 40.. 2022. 4. 22.
통계분석 및 머신러닝을 이용한 새의 울음소리의 변화 분석 포식자가 나타났을 때, 먹이를 먹을 때에도 나는 “D” 울음소리 내가 해외에서 유학을 할 때 논문에 사용될 데이터를 얻기 위해 숲으로 현장조사를 나가면 종종 박새의 일종인 chickadee와 titmouse 가 먹이를 먹으면서 “D” 울음소리를 많이 내는 것을 관찰했다. 그런데 한 가지 흥미로운 사실은 그 새들은 포식자가 나타난 상황에서도 똑같은 “D” 울음소리를 반복적으로 발생시킨다는 것이다. “D” 울음소리는 그들이 낼 수 있는 여러 가지 울음소리 중 하나일 뿐, “A”, “B”, “C” 등 다른 울음소리도 있는데 정반대의 상황 (포식자가 있는 생존에 불리한 상황, 먹이가 있는 생존에 유리한 상황)에서 같은 “D” 울음소리를 반복적으로 발생시키는 것이 신기하게 느껴졌다. 그래서 그런 현상에서 아이디어.. 2022. 4. 19.
통계기법을 사용한 소음의 정도에 따른 조류의 행동 변화 분석 소음에 취약한 동물들 우리의 청각 기능이 정상인 이상, 어느 정도 소음의 영향을 받으면서 살아간다. 때로는 백색소음이 마음의 안정을 가져다 줄 때도 있지만 너무 시끄러운 소음은 우리를 힘들게 할 것이다. 만약 당신의 이웃이 자신의 집에서 큰 소리로 음악을 틀어 놓거나, 주변에서 공사 소리가 나거나, 비행기가 낮게 날면서 소리가 크게 나면 아마 당신은 최대한 이러한 상황을 피하고 싶고 집중력이 떨어져 행동이 달라질 수도 있다. 예를 들어 이웃에게 그만하라며 큰 소리를 칠 수도 있고 밥을 잘 먹지 못하고 귀를 틀어막을 수도 있다. 이것은 비단 인간에게만 해당되는 이야기는 아니며 동물도 인간 못지않게, 혹은 더 심하게 소음의 영향을 받으며 살아간다. 기존 연구에 의하면 인공 소음(자동차, 항공기, 공사, 야외.. 2022. 4. 19.
비개발자의 언어로 풀어 쓴 API 의 구조와 기능 비개발자가 개발자의 언어를 이해해야 하는 이유 나는 entry level의 데이터 분석가로, 아직 프로그래밍과 IT에 대한 지식이 해박하지 못한 편이다. 이런 상태에서 IT 조직에서 개발자들에게 프로그램 개발 혹은 데이터베이스에 대해 요구사항을 이야기하면 그들은 내가 모르는 IT 용어를 사용하여 서로 커뮤니케이션에 어려움을 겪었다. 예를 들어, 개발자들이 ‘트리거를 발생시킨다’, ‘프런트엔드’, ‘백엔드’, ‘CSS’, ‘API’의 용어를 사용하여 나에게 무언가 설명할 때 이런 용어들은 어디선가 들어봤지만 내가 따로 공부를 하지 않고서는 정확하게 알 수 없는 용어들이었다. 그래서 이런 지식을 쌓기 위해 어떻게 공부를 해야 할지 나름대로 생각해봤으나 IT의 세계는 생각보다 너무나 넓고 방대했다. 그러던 중.. 2022. 4. 18.
반응형