관련 연구
SVM, Decision tree, AC 중에 AC의 성은이 제일 좋았는데 이는 reward를 고려하여 거래 비용이 덜 듦 앙상블을 이용하면 더 높은 정확도를 얻을 수 있었음
모델
- state: 에이전트의 주식 보유 비율, 포토폴리오 가치 비율
- 할인률: 0.9, 지연보상기준 5%(+5%가 넘으면 그 전까지의 행동들을 긍정적으로, -5%가 되면 그전까지의 행동을 부정적으로 보상 )
- 수익률 PV 이용 :주식잔고X현재주가+현금잔고 강화학습 모델 4가지와 딥러닝 모델 3가지를 조합해 12가지 모델의 성능을 비교함
실험 결과
데이터: 종목별 일별 시가/고가/ 저가/종가/거래량 및 PER (주가수익률), PBR (주가순자산비율), ROE (자기자본이익률), 코스피 지수와 국채 3년 데이터의 이동평균을 각각 5, 20, 60, 120일로, 종가와 거래량의 이동평균을 각각 5, 10, 20, 60, 120일로 구분하여 총 26가지를 선택했다. 또한, 에이전트가 그 시점에 보유하는 주식의 비율, 포트폴리오 가치 비율로 2가지의 특징을 더해서 총 28가지의 특징이 정책 및 행동가치함수 신경망의 입력값이 되도록 하였다
평균적으로 A3C>A2C>AC의 순서로 수익률이 높게 나왔고 강화학습 특성상 탐험을 위해 매수를 주로 선택했으며 하향 추세도 경험을 하여 사소한 등락에는 잘 대응하면서 가격이 올라가는 추세일 때에 매수를 중심으로 해서 PV를 올릴 수 있었다고 볼 수 있다.
하지만 하향 추세인 주식에 대해서는 결과가 좋지 않았다.
결론
주가 변동 추세 → 수익률 성능에 영향을 미침 , 상승 추세일 때 높은 수익률을 보임