본문 바로가기

분류 전체보기62

주성분분석(PCA)과 정준상관분석(CCA) 주성분 분석 주성분 분석(principal component analysis, PCA)과 정준 상관분석(canonical correlation analysis, CCA)은 많은 변수로 구성된 고차원을 저 차원으로 축소한다는 점에서 공통점이 있다. 이번 글에서는 주성분 분석과 정준 상관분석의 차이점, 정준 상관분석이 사용된 사례에 대해 소개하고자 하며 이를 위해 도서 An Introduction to statistical learning, 펜실베이니아 주립대학교의 온라인 통계 학습자료를 참고하였다. 주성분 분석은 독립변수들이 많아 고차원이 되는 경우, 이를 주성분 (principal component)으로 줄이는 방법이다. 이를 이용하면 관측 대상을 유사한 특성별로 쉽게 나눌 수 있는 장점이 있다. (하지.. 2022. 4. 26.
통계 분석에서의 이상치(outlier) 판별 기준 이상치를 판별할 수 있는 객관적인 기준 마련의 필요성 데이터를 모으면 일반적인 관측값과 차이가 많이 나는 특이한 값들이 관찰되는 경우가 종종 있다. 우리가 객관적인 기준 없이 주관적으로 생각했을 때는 사람마다 어느 값을 벗어나면 이상치라고 판단하는 기준이 달라질 것이다. 따라서 수학적으로 이상치를 판별할 수 있는 기준을 마련하는 것이 필요한데, 여기에는 여러 가지 방법이 있지만 여기에서는 크게 interquartile range와 Standard Deviation을 이용한 방법에 대해서 이야기하고자 한다. Interquartile Range(IQR) 를 이용하는 경우 우선 Interquarilte Range 가 무엇인지 이해하기 위해서는 기본적인 분포의 구조부터 이해해야 한다. 어떤 분포가 있을 때, m.. 2022. 4. 25.
P-value란 무엇이며 Bayesian 통계와는 어떠한 차이가 있는가 P-value의 정의 - P-value의 맨 앞글자인 ‘p’는 probability, 즉 확률을 의미한다. 구체적으로는, 귀무가설이 맞는데도 마치 귀무가설을 기각하는 것 같이 극단적인 결과가 나올 확률이다. 이걸 좀 더 수학적으로 풀어서 설명하자면 랜덤으로 select 한 sample에서 계산된 test statistic이 귀무가설이 맞다는 가정하에서 관측된 값 (critical value 안에 있는 값들) 보다 극단적인 값이 나올 확률이다. - 모집단이 정규분포를 따르고 평균과 표준편차를 안다는 가정 하에서는 쉽게 Z statistic을 계산하고 이에 따라 P-value를 계산할 수 있다, 예를 들어 어떤 장비에 사용되는 특정 부품의 길이가 평균 1.5cm 여야 하는 제품이 있는데 만약 그 길이가 1... 2022. 4. 24.
데이터 클리닝 및 전처리 작업 C언어를 이용한 데이터 클리닝 토양에서 이산화탄소 호흡이 발생하는 현상을 자동으로 측정해 주는 장비로부터 발생한 raw 데이터를 파싱 하여 원하는 통계 값이 계산된 새로운 데이터를 text 파일로 출력하는 프로그램을 C언어로 개발했었다. 처음에는 Python으로 하려고 했었는데, 내가 맨 처음에 가장 많은 시간을 들여서 배운 언어가 C언어이다 보니 파이썬으로 작업하는 것이 불편하게 느껴져서 결국은 C언어로 개발하게 되었다. 그런데 이 작업을 하면서 참 많은 시행착오를 겪었다. 자동으로 측정된 데이터에는 일정한 규칙에 위배되는 이상한 값이 들어가 있는 경우, 데이터가 측정되다가 멈춘 경우 등 여러 가지 예외 사항들이 있었다. 특히 숫자만 있어야 하는 부분에 문자가 섞여 들어간 부분, 특정 행에서의 데이터가.. 2022. 4. 23.
데이터 사이언스 온라인 학회 참관 2020년에 온라인으로 개최된 ODSC 학회 2020년은 코로나의 한 해였다. 당시 나는 미국에 유학 중이었는데 한 번도 온라인으로 학회를 참석한 적이 없었지만 코로나로 인해 국가 비상사태가 선포된 2020년 3월 이후로는 원래 발표 예정인 학회마저도 취소되고 다른 학회는 온라인으로 전환되는 분위기였다. 그래서인지 OPEN DATA SCIENCE Conference (ODSC)에서도 온라인으로 학회를 개최했다. 이 학회는 산업, 의료 등의 분야에서 적용되는 데이터 사이언스 기술에 대한 발표뿐만 아니라 관심 있는 사람들을 대상으로 유료 강좌도 준비한다. ODSC West Virtual Conference는 2020년 10월 27일부터 10월 30일까지 4일에 걸쳐 개최되었으며 40개의 트레이닝 세션, 40.. 2022. 4. 22.
동물 보호시설에서의 유기묘, 유기견 스트레스 저감 방안 분석 사례 동물행동 학회에서 발표된 동물복지 연구 Animal Behavior Society (ABS, 동물행동 학회)는 1964년에 최초로 창립되어 지금까지 이어져 오고 있다. 동물의 행동에도 사회적 행동, 행동 유전학, 신경/내분비 메커니즘, 포식/취식 행동, 동물 간의 의사소통 등의 연구주제를 다루는데 동물 복지에 관한 연구 내용도 다뤄지고 있다. 그동안 나는 개인적으로 동물들의 순수 행동 분야를 연구했었는데 점차 동물 복지에 관심을 갖게 되어 2020년에 이 학회에서 주로 동물들의 복지를 증진시키기 위해 어떤 연구들이 진행되었는지 주로 알아보았다. 동물 보호시설 주변 소음이 고양이의 행동과 복지에 주는 영향 연구자: Bailey H Eagan, David Fraser 유기묘 등 누군가가 돌봐주어야 하는 고양.. 2022. 4. 20.
(영화)Inside out: 우울한 감정도 소중히 사람의 마음이 여러 가지 인격체를 가진 캐릭터라면 어떨까 사람은 여러가지 감정을 갖고 있다. 영화 inside out에서는 사람이 기본적으로 갖고 있는 기쁨, 우울, 분노, 불안 등의 감정을 독립된 인격체인 것으로 가정하고 그들이 어떤 상황에서 어떻게 상호작용하는지 보여주는 신선한 시도를 한다. 순수한 시골 소녀 Riley의 마음속에는 기쁨, 우울, 까칠 (disgust), 소심, 분노라는 다섯 가지 감정 캐릭터가 존재하며 그 캐릭터가 핸들을 쥘 때 그 감정의 특성이 Riley의 행동으로 표출된다. 예를 들어 기쁨이란 감정이 핸들을 쥐면 Riley는 기쁜 행동을 하고, 분노라는 감정이 핸들을 쥐면 분노를 거침없이 표출한다. 이러다가 저녁 식사 자리에서 부모님께 혼이나기도 한다. 물론 사람의 감정은 이러한.. 2022. 4. 19.
통계분석 및 머신러닝을 이용한 새의 울음소리의 변화 분석 포식자가 나타났을 때, 먹이를 먹을 때에도 나는 “D” 울음소리 내가 해외에서 유학을 할 때 논문에 사용될 데이터를 얻기 위해 숲으로 현장조사를 나가면 종종 박새의 일종인 chickadee와 titmouse 가 먹이를 먹으면서 “D” 울음소리를 많이 내는 것을 관찰했다. 그런데 한 가지 흥미로운 사실은 그 새들은 포식자가 나타난 상황에서도 똑같은 “D” 울음소리를 반복적으로 발생시킨다는 것이다. “D” 울음소리는 그들이 낼 수 있는 여러 가지 울음소리 중 하나일 뿐, “A”, “B”, “C” 등 다른 울음소리도 있는데 정반대의 상황 (포식자가 있는 생존에 불리한 상황, 먹이가 있는 생존에 유리한 상황)에서 같은 “D” 울음소리를 반복적으로 발생시키는 것이 신기하게 느껴졌다. 그래서 그런 현상에서 아이디어.. 2022. 4. 19.
반응형