[논문] Playing Atari with Deep Reinforcement Learning 강화학습과 deep neural network을 대규모로 결합 RL은 학습을 위해 scalar형태의 reward값만 주어지고 이 reward조차 sparse하고 noisy가 있고, action과 reward 사이 delayed한 특징이 있다. 또한 현재 state가 다음 state에 많은 영향을 끼치는 RL은 data간의 correlation이 크다. 그리고 RL의 algorithm이 학습되면서 생성되는 data분포 역시 달라진다. 이를 해결하기 위해 이번 논문은 다음을 제시한다. experience replay와 target network를 적용 Input으로 state를, output으로 Q(s,a)를 갖는 ..
이 글은 David Silver의 강화학습 강의자료를 기초로 하였으며 아래의 강의를 듣고 작성하였습니다. https://www.youtube.com/watch?v=2h-FD3e1YgQ&list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU&index=5 https://www.davidsilver.uk/teaching/ Teaching - David Silver www.davidsilver.uk Control : 최적의 policy를 찾는 것 (Model Free) On-Policy Monte-Carlo Control / On-Policy Temporal-Difference Control (Sarsa) Off-Policy Learning (Importance Sampling Q-Learni..
이 글은 David Silver의 강화학습 강의자료를 기초로 하였으며 아래의 강의를 듣고 작성하였습니다. https://www.youtube.com/watch?v=47FyZtBRglI https://www.davidsilver.uk/teaching/ Teaching - David Silver www.davidsilver.uk Model-Free(Environments, transition, Reward를 모를 때) Prediction Policy Evaluation - MC / TD ■ Introduction ● Model-Free Reinforcement Learning (지난 강의 요약) MDP를 알 때, Prediction/Control 문제 풀었다.(Planning by dynamic progra..
이 글은 David Silver의 강화학습 강의자료를 기초로 하였으며 아래의 강의를 듣고 작성하였습니다. https://www.youtube.com/watch?v=rrTxOkbHj-M https://www.davidsilver.uk/teaching/ Teaching - David Silver www.davidsilver.uk Synchronous Dynamic Programming (Full-width Backups(Policy Evaluation, Policy Iteratoin, Value Iteration)) / Asynchronous Dynamic Programming (Full-width Backups) ■ Dynamic Programming ● Dynamic Programming이란? - Dyn..
이 글은 David Silver의 강화학습 강의자료를 기초로 하였으며 아래의 강의를 듣고 작성하였습니다. https://www.youtube.com/watch?v=NMesGSXr8H4&list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU&index=2 https://www.davidsilver.uk/teaching/ Teaching - David Silver www.davidsilver.uk MP, MDP, MRP, MDP에서의 value function과 optimal value function, policy에 대해서 ■ 1. Markov Processes ● MDP - 강화학습에서 environment를 표현 - environment가 완전히 관찰가능한 상황 - 현재 state가 p..
이 글은 David Silver의 강화학습 강의를 기초로 하여 작성하였습니다. https://www.davidsilver.uk/teaching/ Teaching - David Silver www.davidsilver.uk ■ 강화학습(Reinforcement Learning, RL)이 다른 머신러닝과 어떻게 다른가? (1) Supervisor(답 알려주는 자)가 없음 (2) Only a reward signal - reward(목적) 신호 받아서 reward를 maximize하는(optimal해에 도달하는) 좋은 방법을 결정 (3) Feedback이 즉각하지 않고 늦어질 수 있음 - reward가 좋은 action을 했을 때 바로 주어지는 것이 아님 - 어느 action이 reward를 야기시키는 것인지..
논문 : https://arxiv.org/pdf/2106.03253.pdf ⬛ Abstract - tabular data의 분류/회귀 문제에서 XGBoost와 같은 앙상블 모델이 일반적으로 권장. - 최근에 tabular data에 대해 딥러닝 사용이 제안되며, 몇 가지 케이스에서 XGBoost보다 딥러닝 성능이 높다고 함 - tabular data에 대해 딥러닝모델과 XGBoost를 비교할 때 딥러닝 모델이 추천될 만한것인지 다양한 데이터셋으로 비교 (정확도로 비교하며 tuning도 고려함) - XGBoost는 딥러닝 모델을 제안한 논문에서 사용한 데이터셋을 포함한 다양한 데이터셋에 대해 딥러닝 모델보다 좋은 성능을 보임 XGBoost는 tuning을 적게 함 - XGBoost 단독 모델보다는 XGBo..
🟩Bagging ◼ 주어진 데이터를 모집단으로 가정하고, 부표본(subsample)을 반복추출(복원추출)하여 표본이 얻어진 상황을 재현함 ◼ 부표본으로부터 분석을 진행하고 얻어진 분석결과들을 부표본의 반복추출 시 반복 재현 ◼ 기대값은 Regression의 경우 평균값으로, Classfication의 경우 Voting 으로 최종결과를 결정 ◼ 반복수행이 많아질수록 원데이터의 크기가 클수록, 표본의 크기가 클수록 추정된 Bootstap 추정치 결과는 참값에 가까워짐 ◼ 반복수를 많이 늘리거나 표본의 크기를 키워도 결국 원데이터의 모수로 수렴, 따라서 원데이터의 크기가 작으면 Boostrap 추정치의 신뢰도가 떨어짐 🟩Boosting ◼ Weak learner를 결합하여 Strong leaner를 만드는 머..
- Total
- Today
- Yesterday
- 영어공부
- SQLD자격증
- amzaon quicksight
- pandas-gpt
- Concept Drift
- 최신시계열
- amazon Q
- 추천시스템
- NHITS설명
- 비즈니스 관점 AI
- Model Drift Detection
- SQLD 정리
- pandas-ai
- 영화 인턴
- On-premise BI vs Cloud BI
- 데이터 드리프트
- Data Drift Detection
- data drift
- 생성형BI
- 모델 배포
- Generative BI
- 시계열딥러닝
- AutoEncoder
- SQLD
- 오토인코더
- Data Drift와 Concept Drift 차이
- 모델 드리프트 대응법
- Tableau vs QuickSight
- 모델 드리프트
- Model Drift
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |