Data Science&AI
[머신러닝 기초] Bagging(배깅) vs Boosting(부스팅)
calmmimi
2021. 7. 17. 14:19
🟩Bagging
◼ 주어진 데이터를 모집단으로 가정하고, 부표본(subsample)을 반복추출(복원추출)하여 표본이 얻어진 상황을 재현함
◼ 부표본으로부터 분석을 진행하고 얻어진 분석결과들을 부표본의 반복추출 시 반복 재현
◼ 기대값은 Regression의 경우 평균값으로, Classfication의 경우 Voting 으로 최종결과를 결정
◼ 반복수행이 많아질수록 원데이터의 크기가 클수록, 표본의 크기가 클수록 추정된 Bootstap 추정치 결과는 참값에 가까워짐
◼ 반복수를 많이 늘리거나 표본의 크기를 키워도 결국 원데이터의 모수로 수렴, 따라서 원데이터의 크기가 작으면 Boostrap 추정치의 신뢰도가 떨어짐
🟩Boosting
◼ Weak learner를 결합하여 Strong leaner를 만드는 머신러닝 알고리즘
◼ Weak learner를 얻은 후 오분류된 관측치에 더 높은 가중치를 주는 방식으로 알고리즘이 학습됨
🟩Bagging vs Boosting
Bagging | Boosting | |
특징 | 병렬 앙상블(각 모델 독립적) | 연속 앙상블 |
목적 | Variance ↓ | Bias ↓ |
적합한 상황 | Variance↑, Bias↓ | Variance↓, Bias↑ |
알고리즘 | RandomForest | Gradient Boosting, Ada-Boost, XGboost |
Sampling | 랜덤 | 랜덤 샘플링 with weight on errors |