본문 바로가기

데이터 사이언스36

중심극한정리를 이용한 가설검정 Frequentist 적인 접근을 하는 통계학에서는 중심극한정리를 바탕으로 가설을 검정하고, p-value를 계산하여 자신의 주장을 뒷받침 할 수 있는 근거를 마련하는 것이 핵심이다. 본 포스팅에서는 중심극한정리의 기본적인 개념, 이것이 가설검정에 어떻게 적용되는지에 대해 알아보도록 하겠다. 중심극한정리란 무엇인가 Population 으로 부터 여러 sample 들을 추출하면 각각의 sample에서의 평균을 구할 수 있다. 이 때, population 의 분포가 normal distribution이 아니더라도 충분히 많은 수의 sample들을 추출하면 그 평균들로 구성된 distribution은 normal distribution 에 가까워진다. 우리가 어떤 population에서 sample 추출을 딱.. 2022. 4. 13.
머신러닝에서 자주 쓰이는 Random Forest, Boosting Random Forest, bagging의 단점을 보완하다 Bagging은 복원추출을 한 관측값들을 대상으로 동일한 모든 feature를 사용하여 예측하기 때문에 tree간의 상관관계가 높아지는 단점이 있다. 이런 문제를 해결 하기 위해서 random forest 기법 에서는 tree마다 랜덤하게 전체 feature 수 P 개 중 m개 (보통 p의 제곱근)만으로 fitting 하는 획기적인 방법을 택한다. 예를 들어 모든 feature 수가 16개이면, 그 것의 제곱근은 4이므로, 결국은 tree 1개마다 4개의 feature를 16개 중에서 random 하게 선택한다. 예를 들어, 1번 tree 에서는 feature 1,4,7,11번째 를 사용, 2번 tree에서는 2,3,5,8번째를 사용 하는 등 각.. 2022. 4. 10.
머신러닝 기법 설명: Tree 여러개를 모아 완성하는 Bagging Bagging 이란 무엇인가 Decision tree 한 개의 성능보다 이 Decision tree들을 여러개 모아 결론을 종합하는 Bagging, Random Forest, Boosting 방법이 훨씬 성능이 좋다. 이 글에서는 이 3가지 방법들 중 Bagging에 대해 우선 알아보고자 한다. Bagging은 Bootstrap aggregation이라고도 불리는 데 통계적 학습 방법의 variance를 줄이기 위해 일반적으로 사용되는 방법이다. 참고로 Bootstrap 의 맨 앞글자 B, Aggregation 의 앞 두글자인 ag 가 합쳐져서 Bagging 이라고 한다. Variance를 줄이는 원리는 간단하다. 우리가 Standard Error of Mean을 계산 할 때에도 population으로부.. 2022. 4. 10.
Tree-based 머신러닝의 기초개념, 해석 방법 및 주의점 Tree-based 란 무엇인가 Tree based 방법은 response variable의 공간을 어떤 predictor variable의 condition 등을 이용해서 여러 영역으로 계층화, 분할 하는 방법이다. Response variable 이 continuous 한 숫자 인 경우에는 regression을, 반대로, response variable 이 categorical 한 경우 (예를 들어 true, false) 에는 classification 방법을 사용한다. Response variable 의 공간을 분할 하는 과정이 마치 나무가 가지를 뻗어나가는 것 과 같아 decision-tree라고 함. 실제 사람이 의사결정을 내리는 과정과 닮아있어 해석하기가 매우 용이하며 시각화 하기가 쉽다는 장.. 2022. 4. 9.
반응형