본문 바로가기

데이터 사이언스34

머신러닝 기법 설명: Tree 여러개를 모아 완성하는 Bagging Bagging 이란 무엇인가 Decision tree 한 개의 성능보다 이 Decision tree들을 여러개 모아 결론을 종합하는 Bagging, Random Forest, Boosting 방법이 훨씬 성능이 좋다. 이 글에서는 이 3가지 방법들 중 Bagging에 대해 우선 알아보고자 한다. Bagging은 Bootstrap aggregation이라고도 불리는 데 통계적 학습 방법의 variance를 줄이기 위해 일반적으로 사용되는 방법이다. 참고로 Bootstrap 의 맨 앞글자 B, Aggregation 의 앞 두글자인 ag 가 합쳐져서 Bagging 이라고 한다. Variance를 줄이는 원리는 간단하다. 우리가 Standard Error of Mean을 계산 할 때에도 population으로부.. 2022. 4. 10.
Tree-based 머신러닝의 기초개념, 해석 방법 및 주의점 Tree-based 란 무엇인가 Tree based 방법은 response variable의 공간을 어떤 predictor variable의 condition 등을 이용해서 여러 영역으로 계층화, 분할 하는 방법이다. Response variable 이 continuous 한 숫자 인 경우에는 regression을, 반대로, response variable 이 categorical 한 경우 (예를 들어 true, false) 에는 classification 방법을 사용한다. Response variable 의 공간을 분할 하는 과정이 마치 나무가 가지를 뻗어나가는 것 과 같아 decision-tree라고 함. 실제 사람이 의사결정을 내리는 과정과 닮아있어 해석하기가 매우 용이하며 시각화 하기가 쉽다는 장.. 2022. 4. 9.
반응형