티스토리 뷰
🟩Bagging
◼ 주어진 데이터를 모집단으로 가정하고, 부표본(subsample)을 반복추출(복원추출)하여 표본이 얻어진 상황을 재현함
◼ 부표본으로부터 분석을 진행하고 얻어진 분석결과들을 부표본의 반복추출 시 반복 재현
◼ 기대값은 Regression의 경우 평균값으로, Classfication의 경우 Voting 으로 최종결과를 결정
◼ 반복수행이 많아질수록 원데이터의 크기가 클수록, 표본의 크기가 클수록 추정된 Bootstap 추정치 결과는 참값에 가까워짐
◼ 반복수를 많이 늘리거나 표본의 크기를 키워도 결국 원데이터의 모수로 수렴, 따라서 원데이터의 크기가 작으면 Boostrap 추정치의 신뢰도가 떨어짐
🟩Boosting
◼ Weak learner를 결합하여 Strong leaner를 만드는 머신러닝 알고리즘
◼ Weak learner를 얻은 후 오분류된 관측치에 더 높은 가중치를 주는 방식으로 알고리즘이 학습됨
🟩Bagging vs Boosting
Bagging | Boosting | |
특징 | 병렬 앙상블(각 모델 독립적) | 연속 앙상블 |
목적 | Variance ↓ | Bias ↓ |
적합한 상황 | Variance↑, Bias↓ | Variance↓, Bias↑ |
알고리즘 | RandomForest | Gradient Boosting, Ada-Boost, XGboost |
Sampling | 랜덤 | 랜덤 샘플링 with weight on errors |
'Data Science&AI' 카테고리의 다른 글
[강화학습 뿌시기] 1. 강화학습(Reinforcement Learning) 기초 (0) | 2022.01.06 |
---|---|
[논문리뷰]Tabular Data : DeepLearning is Not All You Need (0) | 2021.07.28 |
[머신러닝 기초] Bias vs Variance (0) | 2021.07.17 |
[이상탐지] 오토인코더(AutoEncoder)에 대한 자세한 설명 (0) | 2021.07.14 |
Explainable AI(XAI) : 설명 가능한 AI (0) | 2021.05.16 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- data drift
- Concept Drift
- Data Drift와 Concept Drift 차이
- SQLD자격증
- Data Drift Detection
- 영화 인턴
- 모델 드리프트 대응법
- Generative BI
- SQLD 정리
- NHITS설명
- pandas-gpt
- 비즈니스 관점 AI
- 추천시스템
- 모델 드리프트
- 데이터 드리프트
- 오토인코더
- amzaon quicksight
- 생성형BI
- 최신시계열
- Tableau vs QuickSight
- 영어공부
- 모델 배포
- 시계열딥러닝
- Model Drift Detection
- amazon Q
- AutoEncoder
- On-premise BI vs Cloud BI
- pandas-ai
- SQLD
- Model Drift
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함