인사이트캠퍼스
716
2018-07-16 12:58:06
0
261

[머신러닝 심화] 강화학습을 활용한 금융 데이터 분석 5기


* 상세페이지 바로가기 *

[머신러닝 심화] 강화학습을 활용한 금융 데이터 분석 5기 – Insight Campus
[머신러닝 심화] 강화학습을 활용한 금융 데이터 분석 5기 강사 조성현 강의교수님 강의분류 금융IT / 인기 메인 강의 / 파이썬 과정 모집중 강의 소개 금융권 빅데이터 분석, 이제 더이상 옵션이 아닙니다. Play Video 출처 : YTN 강화학습(Reinforcement Learning)을 통해서  데이터 스스로 투자의 #최적의사결정을 찾아가는 모델을 만듭니다. 현대 금융시장은 다양한 상품들이 서로 복잡한 관계로 얽혀 방대한 양의 데이터를 끊임없이 쏟아냅니다. 효율적인 투자를 위해서는 이를 효과적으로 분석하여 시장의
insightcampus.co.kr

▶ 과정 안내

                         금융권 '빅데이터' 활용에 사활 건다 / YTN
강화학습(Reinforcement Learning)을 통해서 
데이터 스스로 투자의 최적의사결정을 찾아가는 모델을 만듭니다.

 데이터를 효과적으로 다루기 위해 빅데이터, 기계학습 같은 방법이 주로 사용되고 있으며, 최근에는 딥러닝 (Deep Learning)이 주목 받고 있습니다.  시장이 현재 어떤 상태에 있는지 추정하고, 이 상태에서 어떤 행위를 수행하는 것이 가장 합리적인지 판단하는 것이 최적화의 목표라 할 수 있습니다.
강화학습은 크게 3가지 접근법이 있습니다.
Value based 접근법
Policy based 접근법
Actor, Critic 접근법
본 교육에서는
 Value based 접근법에 대해 다룹니다. 본 교육 과정은 강화학습을 통해 최적 투자의사결정 정책을 수립하는 방법에 대해 다루고 있습니다.
(참고로, 본 과정은 금융 이론과 기계학습, 그리고 프로그래밍 (Python등)에 대한 기본적인 개념을 어느 정도 알고 있다는 전제하에 강화학습을 다루고 있습니다.)

▶ 상세 안내

Part 1 | 강화학습 알고리즘 이해 

1장 | 강화학습의 개요  

1-1. 기계학습의 유형 (Supervised, Unsupervised, Reinforcement Learning) 
1-2. 기계학습의 유형 비교 
1-3. Supervised Learning 예시 : KNN에 의한 주가의 방향 예측 
1-4. Unsupervised Learning 예시 : K-means에 의한 캔들 패턴 분류 
1-5. Reinforcement Learning 예시 : 주가의 기술적 지표 Q-Learning 

2장 | Markov Decision Process (MDP)   
  
2-1. Markov Process (MP) 
2-2. Markov Reward Process (MRP) 
2-3. Markov Decision Process (MDP) 
2-4. Bellman 방정식과 State 및 Action value Function 
2-5. Grid world의 MDP 예시 
2-6. 주가의 기술적 분석 MDP 예시 
2-7. 페어 트레이딩의 MDP 예시 
2-8. 마켓메이킹을 위한 Micro market factor의 MDP 예시 
2-9. MDP 학습 방법론 (DP, MC, TD, FA) 

3장 | 알파고 (AlphaGo) 알고리즘의 이해 

3-1. 구글 딥마인드의 알파고 논문 소개 
3-2. 강화학습의 유형 (Value-based, Policy-based, Actor-Critic) 
3-3. 바둑 게임 상태의 MDP 정의 
3-4. 알파고의 학습 단계 : SL 단계 → RL 단계 
3-5. 알파고의 학습 단계 : Monte Carlo Tree Search 단계 

Part 2 | 강화학습 알고리즘 심화 
  
4장에서는 Dynamic Programming으로 MDP를 Learning하고, 5장에서는 몬테카를로 방법 (MC)에 의해 MDP의 각 상태 (액션)별 가치를 추정합니다. 6장에서는 MC의 단점을 보완하기위해 Temporal Difference (TD)에 의한 Learning 방법을 다룹니다. 그리고 7장에서는 방대한 크기의 상태 공간과 연속된 상태 공간에 대한 상태 (액션)별 가치를 추정합니다. 실제 금융 데이터를 위해서는 연속된 상태를 다루어야 하기 때문에 7장의 내용을 중요하게 다룹니다. 

4장 | Dynamic Programming (DP) 

4-1. Dynamic Programming 개요 
4-2. 피보나치 수열 (단순재귀, Memoization, Bottom-up) 
4-3. 1-차원 Random walk의 MDP 
4-4. Absorbing Markov Chain에 의한 Random walk MDP 분석 
4-5. Planning vs. Learning 
4-6. Prediction vs. Control 
4-7. Policy Evaluation (state-value 추정) 
4-8. Policy Iteration (optimal policy추정) 
4-9. Value Iteration (optimal policy 추정) 
4-10. Grid world의 state-value 및 optimal policy 추정 

5장 | Monte Carlo Methods 

5-1. Monte Carlo Methods 개요 
5-2. First-visit vs. Every-visit 
5-3. Monte Carlo Control 
5-4. Exploitation vs. Exploration 
5-5. Exploring Starts (ES) Control 
5-6. On-Policy MC Control (ε-greedy) 
5-7. Importance Sampling 
5-8. Off-Policy MC Prediction 과 Control 
5-9. Incremental Implementation (Weighted Importance Sampling) 
5-10. Weighted importance sampling을 활용한 control 예시 
5-11. Blackjack 게임의 최적화 예시 
5-12. Monte Carlo 방법의 문제점 

6장 | Temporal Difference (TD) 방식에 의한 강화학습 

6-1. TD 학습의 개요 (MC 와 TD) 및 기본 원리 
6-2. 실시간 평균 업데이트와 지수이동평균 (EMA) 
6-3. TD Prediction 
6-4. MC와 TD의 성능 비교 
6-5. Sarsa : On-Policy TD Control 
6-6. Q-Learning : Off-Policy TD Control 
6-7. Sarsa와 Q-Learning의 특성 비교 
6-8. Cliff walking의 optimal path 찾기 예시 (Sarsa 및 Q-Learning) 
6-9. N-Step TD Prediction 
6-10. N-step TD Prediction의 성능 곡선과 최적 n의 결정 문제 
6-11. N-step Sarsa 
6-12. N-step Tree Backup Control 
6-13. Eligibility Trace TD(λ) 
6-14. TD(λ)의 Forward, Backward view 예시 

7장 | Function Approximation (FA) 방식에 의한 강화학습 

7-1. Function approximation (FA) 개요 
7-2. Linear Basis Function (Binary, Polynomial, Fourier basis function) 
7-3. MSVE 정의와 가중치 (weight) 업데이트 
7-4. Gradient Descent 
7-5. Linear Gradient Descent Monte Carlo Prediction 
7-6. N-step semi-gradient TD Prediction 
7-7. Polynomial, Fourier basis function을 사용한 RW MDP 학습 예시 
7-8. Coarse Coding 
7-9. Radial Basis Function (RBF) 
7-10. Tile Coding 
7-11. N-step semi-gradient Sarsa (On-policy control) 
7-12. Hash Table과 Collision 
7-13. Tile Coding을 이용한 Mountain Car problem 학습 예시 

Part 3 | 강화학습을 활용한 금융 데이터 분석 사례 (Case Study) 
   
8장, 9장은 학습 데이터를 구성하는 절차에 대해 다룹니다. 학습을 위해 실제 시장 데이터를 수집하는 방법과, 시뮬레이션에 의해 데이터를 생성하는 방법을 다룹니다. 10장에서는 금융공학에서 다루는 최적 매도 시점의 Control 문제를 강화학습으로 학습하는 방법을 다루고, 11장에서는 강화학습을 통한 페어트레이딩 (Pairs Trading) 방법에 대해 다룹니다. 그리고 12장에서는 시세데이터 학습 방법론을 다루고, 마켓메이커의 최적 호가 산출 방법을 예시로 Stochastic Optimal Control 모델에 의한 최적화 방법과 강화학습에 의한 최적화 문제를 다룹니다. 

8장 | 주가 모형과 몬테카를로 시뮬레이션에 의한 간접 학습 

8-1. 강화학습과 간접 경험에 의한 학습 
8-2. 주가의 기하브라운운동 (GBM)과 몬테카를로 시뮬레이션 
8-3. 주가의 기술적 지표에 의한 최적 Action 결정 예시 
8-4. 효용함수와 Reward Function의 정의 
8-5. 주가의 기술적 지표 학습에 대한 MDP 정의 
8-6. TD(0) Sarsa 및 n-Step TD Sarsa 학습 예시 
8-7. n-Step TD 학습의 Variance 관찰 
8-8. n-Step TD 학습 결과에 따른 모의투자 시험 (SoftMax action 정책) 

9장 | 시장 데이터 수집 및 학습 

9-1. 시장 데이터의 종류 
9-2. 파이썬을 이용한 Yahoo 사이트 주가 데이터 수집 
9-3. 수집된 데이터를 활용한 강화학습 예시 (Q-Learning) 9-4. Double Q-Learning 
9-5. GBM 모형을 활용한 추가 학습 예시 (Double Q-Learning) 

10장 | 최적 매도 시점의 최적화 문제 

10-1. 최적 매도 시점 (Optimal Stopping Time)의 최적화 문제 개요 
10-2. GBM 모형과 Optimal Control에 의한 True value 
10-3. 강화학습과 Stochastic Optimal Control 
10-4. Optimal Stopping Time 학습을 위한 MDP 구성 
10-5. 강화학습에 의한 Optimal Stopping Time 추정 

11장 | 페어 트레이딩 (Pairs Trading)과 강화학습 

11-1. 페어 트레이딩 (Pairs Trading) 개요 
11-2. 페어 트레이딩 관련 통계적 지표 산출 (상관관계, 공적분, 회귀계수, 스프레드 등) 
11-3. Pairs 스프레드 학습을 통한 최적 진입/청산 정책 수립 
11-4. 상관관계를 갖는 두 주가의 시뮬레이션 (촐레스키 분해식 활용) 
11-5. 시뮬레이션 주가를 이용한 페어트레이딩 강화학습 예시 
11-6. Yahoo 시장 데이터를 이용한 페어트레이딩 강화학습 예시 

12장 | 시세데이터 학습과 마켓메이커의 최적 호가 학습 

12-1. 미시시장과 시세데이터 (학습 데이터) 
12-2. 시세데이터의 강화학습 방법론 
12-3. 주가 시뮬레이션과 시장 시뮬레이션 
12-4. 시장 시뮬레이션 방법론 및 시뮬레이터 시연 
12-5. 미시시장의 Feature Set 생성 (Market Factors) 
12-6. 시장 시뮬레이터를 통한 강화학습 방법론 
12-7. Optimal Stochastic Control에 의한 마켓메이커의 최적 호가 산출 예시 
12-8. 강화학습을 통한 마켓메이커의 최적 호가 산출 방법론 

  
Part 4 | Deep Q-Network 

13장 | 딥러닝을 이용한 강화학습(Deep Q-Network : DQN) 

13-1. 인공 신경망의 기본 개념 
13-2. 인공 신경망 알고리즘 예시 (Supervised Learning) 
13-3. 연결 가중치 조절 원리 (Error Backpropagation) 
13-4. Deep Q-Network (DQN) 
13-5. TD(0) DQN Prediction 예시 
13-6. Target Network 
13-7. Target Network을 사용한 TD(0) DQN Prediction 예시 
13-8. TD(0) DQN Control 예시 
13-9. TD(0) Sarsa DQN Control 예시 : Grid world 예시 
13-10. TD(0) DQN Q-Learning Control 예시 : Grid world 예시 
13-11. Multi step TD Sarsa DQN Control 예시 : Grid world 예시 
13-12. Experience Replay 
13-13. Target Network와 Experience를 이용한 TD(0) DQN Control 예시 
13-14. Target Network, Experience Replay, Multi-step TD, Tree-backup 예시 (Off-Policy)

▶ 수강 대상

- 데이터 기반의 투자 관련 업무를 맡고 있는 증권, 운용사 실무자
- 강화학습을 적용한 투자 시스템을 구현하고 싶은 금융 IT 개발자
- 머신러닝과 금융 데이터를 깊이 있게 공부하고 싶은 대학(원)생

 강의교수님: 조성현 교수

https://blog.naver.com/chunjein

現 핀인사이트 인사이트 캠퍼스 연구/강의 교수
現 아마추어퀀트 금융공학 전문 블로그 운영
前 Lucent Technologies, Bell-Labs Innovations 수석 연구원
조성현 강의교수님은 물리학을 전공하고 KT에 입사하여 망관리센터 및 연구개발센터의 통신운용연구단에서 약 8년간 근무하다가, AT&T, Lucent Technologies로 이직하여 수석 연구원으로 10년간 종사한 통신 소프트웨어 전문가 입니다. 미국 Bell-lab에서 차세대 네트워크 구축에 대한 Training, 국내 KT, SKT 등의 국가기간망 구축 사업 분야에 종사했으며, 국제보안전문가 (CISSP)로 국내 VoIP 망의 보안 컨설팅 프로젝트를 수행 했습니다.
이후 금융 분야에 진출하여 금융공학, 시장미시구조론, 알고리즘 트레이딩, 페어트레이딩, 금융 데이터마이닝 (기계학습), 강화학습 분야를 연구하고 있습니다. 물리학과 미국 Bell-Lab의 소프트웨어 기술에 금융 이론을 접목하여 금융 관련 시스템을 개발하고, 블로그를 통해 외국의 최신 투자 기법을 다룬 논문들의 내용을 소개하고 있습니다. 외환 전문인 갤럭시투자자문사에서 환위험관리 및 외환차익거래 시스템을 개발한 바 있으며, 약 6년 전부터 여의도 금융가와 강남 지역, 그리고 코스콤 등 기업체의 직원 연수교육의 금융 강사로 활동하고 있습니다. 

최근 블록체인에 대한 연구를 활발히 하고 계시고, 퀀트 및 금융IT 분야에서 저명한 블로거로 활동하고 계십니다. 

 강의일정 
기간 : 2018년 8월 25일 (토) ~ 9월 29일 (토) 총 6주 
시간 : 매주 토 오후 2시 - 6시 / 일 4시간, 총 24시간


 강의장소 
서울특별시 강남구 삼성동 35-15 나라빌딩 1층
인사이트 캠퍼스 제1강의장 *선정릉역(9호선/분당선) 2번출구 3분거리 


 준비물 
개인 노트북 지참/교재 제공


* 대학(원)생 및 단체 추가 할인 가능
카드 결제 최대 6개월 무이자 할부 가능
* 세금계산서 발행 가능

수강신청 하러가기 


https://insightcampus.co.kr/shop/01-18fi045/

[머신러닝 심화] 강화학습을 활용한 금융 데이터 분석 5기 – Insight Campus
[머신러닝 심화] 강화학습을 활용한 금융 데이터 분석 5기 강사 조성현 강의교수님 강의분류 금융IT / 인기 메인 강의 / 파이썬 과정 모집중 강의 소개 금융권 빅데이터 분석, 이제 더이상 옵션이 아닙니다. Play Video 출처 : YTN 강화학습(Reinforcement Learning)을 통해서  데이터 스스로 투자의 #최적의사결정을 찾아가는 모델을 만듭니다. 현대 금융시장은 다양한 상품들이 서로 복잡한 관계로 얽혀 방대한 양의 데이터를 끊임없이 쏟아냅니다. 효율적인 투자를 위해서는 이를 효과적으로 분석하여 시장의
insightcampus.co.kr

0
0
  • 댓글 0

  • 로그인을 하시면 댓글을 등록할 수 있습니다.