머신러닝에서 자주 쓰이는 Random Forest, Boosting
Random Forest, bagging의 단점을 보완하다 Bagging은 복원추출을 한 관측값들을 대상으로 동일한 모든 feature를 사용하여 예측하기 때문에 tree간의 상관관계가 높아지는 단점이 있다. 이런 문제를 해결 하기 위해서 random forest 기법 에서는 tree마다 랜덤하게 전체 feature 수 P 개 중 m개 (보통 p의 제곱근)만으로 fitting 하는 획기적인 방법을 택한다. 예를 들어 모든 feature 수가 16개이면, 그 것의 제곱근은 4이므로, 결국은 tree 1개마다 4개의 feature를 16개 중에서 random 하게 선택한다. 예를 들어, 1번 tree 에서는 feature 1,4,7,11번째 를 사용, 2번 tree에서는 2,3,5,8번째를 사용 하는 등 각..
2022. 4. 10.