티스토리 뷰

🟩Bagging


◼ 주어진 데이터를 모집단으로 가정하고, 부표본(subsample)을 반복추출(복원추출)하여 표본이 얻어진 상황을 재현함

◼ 부표본으로부터 분석을 진행하고 얻어진 분석결과들을 부표본의 반복추출 시 반복 재현

◼  기대값은 Regression의 경우 평균값으로, Classfication의 경우 Voting 으로 최종결과를 결정

◼ 반복수행이 많아질수록 원데이터의 크기가 클수록, 표본의 크기가 클수록 추정된 Bootstap 추정치 결과는 참값에 가까워짐

 반복수를 많이 늘리거나 표본의 크기를 키워도 결국 원데이터의 모수로 수렴, 따라서 원데이터의 크기가 작으면 Boostrap 추정치의 신뢰도가 떨어짐

 

 

 

🟩Boosting


◼ Weak learner를 결합하여 Strong leaner를 만드는 머신러닝 알고리즘

◼ Weak learner를 얻은 후 오분류된 관측치에 더 높은 가중치를 주는 방식으로 알고리즘이 학습됨

 

 

 

🟩Bagging vs Boosting


  Bagging Boosting
특징 병렬 앙상블(각 모델 독립적) 연속 앙상블
목적 Variance ↓ Bias 
적합한 상황 Variance↑, Bias Variance↓, Bias↑ 
알고리즘 RandomForest Gradient Boosting, Ada-Boost,
XGboost
Sampling 랜덤 랜덤 샘플링 with weight on errors