MiMi's Self-development Blog

[논문] Playing Atari with Deep Reinforcement Learning 강화학습과 deep neural network을 대규모로 결합 RL은 학습을 위해 scalar형태의 reward값만 주어지고 이 reward조차 sparse하고 noisy가 있고, action과 reward 사이 delayed한 특징이 있다. 또한 현재 state가 다음 state에 많은 영향을 끼치는 RL은 data간의 correlation이 크다. 그리고 RL의 algorithm이 학습되면서 생성되는 data분포 역시 달라진다. 이를 해결하기 위해 이번 논문은 다음을 제시한다. experience replay와 target network를 적용 Input으로 state를, output으로 Q(s,a)를 갖는 ..

Data Science&AI 2022. 2. 9. 00:59

[강화학습 뿌시기] 5. Model Free Control

이 글은 David Silver의 강화학습 강의자료를 기초로 하였으며 아래의 강의를 듣고 작성하였습니다. https://www.youtube.com/watch?v=2h-FD3e1YgQ&list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU&index=5 https://www.davidsilver.uk/teaching/ Teaching - David Silver www.davidsilver.uk Control : 최적의 policy를 찾는 것 (Model Free) On-Policy Monte-Carlo Control / On-Policy Temporal-Difference Control (Sarsa) Off-Policy Learning (Importance Sampling Q-Learni..

Data Science&AI 2022. 2. 1. 12:58

[강화학습 뿌시기] 4. Model-Free Prediction

이 글은 David Silver의 강화학습 강의자료를 기초로 하였으며 아래의 강의를 듣고 작성하였습니다. https://www.youtube.com/watch?v=47FyZtBRglI https://www.davidsilver.uk/teaching/ Teaching - David Silver www.davidsilver.uk Model-Free(Environments, transition, Reward를 모를 때) Prediction Policy Evaluation - MC / TD ■ Introduction ● Model-Free Reinforcement Learning (지난 강의 요약) MDP를 알 때, Prediction/Control 문제 풀었다.(Planning by dynamic progra..

Data Science&AI 2022. 1. 24. 20:37

[이진우의 손에 잡히는 경제]악재 많은 국내 증시

이진우의 손에 잡히는 경제 1/21(금) 방송분 내용입니다. ⬛️악재 많은 국내 증시 - 1월에만 코스피 4.7퍼 빠짐 - 미국 fmc 통화정책결정회의를 앞두고 코스피가 시원스레 올라오진 못하고 있음 - 원달러 환율 1193원으로 상승으로 외국인 매도 - 미국 메모리 반도체업체 마이크론이 5퍼 하락으로 우리나라 대장주 삼성전자 sk하이닉스에도 영향 (마이크론 ceo가 자신이 갖고 있던 주식 10만주 매도, 자신의 기업에 부정적 견해 갖고 있는 거 아닌가?) - 장마감 후 넷플릭스 실적 발표. 18퍼 급락. 다음분기 가입자수 시장예상보다 낮을 것. 디즈니 플러스 등 다른 업체로 신규가입자 분산. - 다음주 fmc에서는 기준금리는 인상되지 않지만 3월쯤 오를 예정. 요새 인플레 이슈가 사라지지 않다보니 처음..

경제 & 시사 2022. 1. 24. 08:01

[주린이 끄적끄적] 종목 선정 및 매수, 매도 타이밍 알아내는 법

본 글은 이라는 프로그램의 13회, 15회 내용입니다. (13회 : https://www.youtube.com/watch?v=tmC2ViYp4Zc) (15회 : https://www.youtube.com/watch?v=af0P0Swuf_Y&t=1258s) 기본적 분석 ▶ 종목선정 수급 & 차트 분석 ▶ 타이밍 잡기 ⚫️기본적 분석 - 기업 간 상대가치를 비교할 수 있는 기준, 매수& 매도의 기준이 필요 ■ 주가는 아무 의미 없고 시가총액을 봐라! ■ 주가 : 시가총액 / 주식 수 - 테슬라 시가총액 - 1000조가 넘고 현대차 시가총액 - 50조 안 넘음 ■ PER(Price Earning Ratio) - 시가총액 / 순이익 - 시가총액이 이익의 몇 배에 거래되는가? - 직관적으로 원금 회수 기간으로 이..

경제 & 시사 2022. 1. 10. 21:32

[주린이끄적끄적] 주식 차트 보는 법

본 글은 이라는 프로그램의 18회 내용입니다. https://www.youtube.com/watch?v=RP8T81w-0f0&t=56s ※ 차트 분석 유의사항 - 지수에는 장사없다 - 승률 100%는 절대 불가능하다 - 차트에는 수많은 정보가 녹아있다 (저점 매수 시 - 수익 확률↑ / 고점 매수 시 - 수익 확률↓) ⚫️ 캔들의 이해 1) 양봉과 음봉의 의미 - 양봉 : 시가(오늘 시작하는 가격)보다 종가가 높은 캔들 (매수세가 매도세를 압도한 캔들) - 음봉 : 시가가 종가보다 높은 캔들 양봉 음봉 2) 캔들 종류 - 분봉 캔들 / 일봉 캔들 - 주봉 캔들 : 시초가(월요일), 종가(금요일) - 월봉 캔들 : 시초가(월 첫 거래일), 종가(월 마지막 거래일) 3) 캔들 패턴의 종류와 의미 (아래 캔들..

경제 & 시사 2022. 1. 8. 01:29

[강화학습 뿌시기] 3. Planning by Dynamic Programming

이 글은 David Silver의 강화학습 강의자료를 기초로 하였으며 아래의 강의를 듣고 작성하였습니다. https://www.youtube.com/watch?v=rrTxOkbHj-M https://www.davidsilver.uk/teaching/ Teaching - David Silver www.davidsilver.uk Synchronous Dynamic Programming (Full-width Backups(Policy Evaluation, Policy Iteratoin, Value Iteration)) / Asynchronous Dynamic Programming (Full-width Backups) ■ Dynamic Programming ● Dynamic Programming이란? - Dyn..

Data Science&AI 2022. 1. 8. 00:31

[강화학습 뿌시기] 2. Markov Decision Processes(MDP)

이 글은 David Silver의 강화학습 강의자료를 기초로 하였으며 아래의 강의를 듣고 작성하였습니다. https://www.youtube.com/watch?v=NMesGSXr8H4&list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU&index=2 https://www.davidsilver.uk/teaching/ Teaching - David Silver www.davidsilver.uk MP, MDP, MRP, MDP에서의 value function과 optimal value function, policy에 대해서 ■ 1. Markov Processes ● MDP - 강화학습에서 environment를 표현 - environment가 완전히 관찰가능한 상황 - 현재 state가 p..

Data Science&AI 2022. 1. 7. 10:45

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

티스토리툴바