본문 바로가기

Reinformance learning2

Keras로 CartPole 강화학습 OpenAI Gym으로 이미 구현되어있는 환경을 이용할 수 있다. 가장 단순해 보이는 CartPole 환경을 가져와서 강화 학습을 시켜보자. cart위에 막대기가 있고 한 끝이 cart에 고정되어 있다. 중력에 의해 막대기는 바닥으로 떨어지려 할 테니 cart를 좌우로 움직여 최대한 오래 지탱하는 것이 목표이다. OpenAI Gym에서는 environment로 cart의 위치, 속도와 막대기의 각도, 속도가 주어지고 이를 판단해서 cart의 움직임을 구해야 한다. environment로 주어지는 모든 상태에 대해 Q-Value를 구한다면 좋겠지만 경우의 수가 무한하기 때문에 구할 수 없다. 따라서 deep learning으로 학습시켜 모델을 만들어 입력으로 주어지는 environment에 대해 cart의.. 2019. 12. 8.
강화학습의 종류 바둑의 한 수는 그 즉시 평가되기 어렵다. 여러 선택이 모여 종국 되었을 때 계가를 해봐야 이겼는지, 졌는지에 대한 reward를 받을 수 있다. 따라서 현재의 행동을 결정할 때 미래의 가치도 판단해야 한다. 이때 미래 가치는 에피소드라 불리는 종료 시점까지 탐색하는 하나의 시나리오가 끝나야 알 수 있다. 마지막에서야 알 수 있는 그 미래의 가치를 평가해서 현재 택할 수 있는 최선의 행동을 찾아야 한다. 미래를 고려한 최선의 선택을 해야 하는 문제는 아주 많다. 미로 찾기를 대표적으로 예를 들 수 있다. 현재 미로의 입구에 서있고, 출구를 찾아 탈출하는 환경을 생각해보자. 이 같은 문제는 강화 학습을 하는 방법으로 가치기반 학습과 정책기반 방식을 사용할 수 있다. 가치 기반 학습 Q learning 현재.. 2019. 11. 3.