Introduction RL기본기부터 시작해서 어느 덧 다섯번째 포스팅까지 오게 되었다. 역시나 일종의 시리즈 물을 순서대로 보지 않았다면 계속해서 반복되는 지난 포스팅부터 시작해주길 부탁한다. 드디어 우리는 Grid environement에서 벗어나 연속적인 환경에서도 agent가 $s$를 받아들이고 적절한 $a$를 취할 수 있도록 neural network를 적용한 RL문제를 푸는데 성공하였다. 기억하는가? 지난 포스팅의 CartPole문제 알고리즘은 neural network를 이용했지만 큰 줄기로 Off-policy방식을 채택했었다. 해당 방식은 TD-error를 optimize시키는 과정에서 expl... Read more 30 Dec 2021 - 6 minute read
RL의 기본 개념부터 시작해서 TD prediction 알고리즘인 SARSA, Off-policy Q-learning까지 지난 포스팅을 통해서 살펴봤다. 많은 개념들을 다루었지만 아마 독자들은 지금까지 포스팅을 보면서 (내용을 잘 소화했다면)큰 아쉬움을 느꼈을 것이다. 바로, 예시로 든 environment들이 굉장히 정형화 되어있는 격자세계(Grid world)로 구성되었다는 점이다. 격자 환경에서 $s$가 이산화 되어있으나 실제로 풀어야 할 RL문제, 실제로 인간이 마주하고 있는 세계는 연속적인 공간으로 이루어져 있기에 이 환경에 맞도록 RL을 생각해야 한다. 이제는 agent가 인식하는 environment는... Read more 29 Dec 2021 - 7 minute read
Bellman equation을 통해서 agent의 최종 보상의 개념을 공부하였다. 이 부분이 익숙하지 않다면 반드시 복습하고 포스트를 봐주기 바란다. 지금까지 우리는 최종보상, $G_t$를 구하는 과정으로 동적계획법(Dynamic Programming, DP)로 해결했고 튜토리얼은 $\pi$가 고정적인 상황에서만 문제를 다루었다. 이제 다음 단계로 agent가 그렇게 계산된 Value-function 혹은 Q-function을 이용해서 $\pi$를 구체적으로 업데이트 시키는 과정에 대해서 살펴보고자 한다. Policy update $\pi$가 $s$에 대해서 최적의 action을 주도록 update하는 과정은... Read more 18 Dec 2021 - 12 minute read
혹시 강화학습에 대한 기초 개념을 모른다면 이전 포스팅부터 보고 와주기를 바란다. 이번 포스팅에선 지난 포스팅에 이어서 Bellman equation의 이론과 그에 따른 agent의 최적화 방식을 조금 더 면밀히 살펴보고, 그럴싸한 강화학습 문제를 풀어보도록 하겠다. Bellman equation Bellman equation은 특별한 것은 아니고, 사실 지난 포스팅의 Value function과 Action-Value function을 전개한 식이 바로 Bellman equation이다. 하지만 그 이면에 더 세세한 사항들에 대해서 고려할 부분이 많기에 따로 챕터를 잡아 설명한다.RL은 일종의 Markov ... Read more 10 Dec 2021 - 8 minute read
글을쓰는 지금 재직하고 있는 회사에서 포커스를 두는 분야는 아니지만 한때 Reinforcement Learning에 대해서 많은 관심을 가지고 깊이까지는 아니지만 짤막하게 공부를 했었고다. 이전 포스팅에서 다룬 연구가 Reinforcement Learning을 응용한 바, 이전에 필자가 공부했던 RL도 정리해야 겠다는 필요성을 느꼈다. 그래서 RL의 기본 내용과 DQN, A2C까지의 알고리즘을 차차 진행해보고자 한다. 첫번째 여정으로 RL의 기본개념 부터 정리하겠다. Reinforcement의 기본요소 Supervised learning, Unsupervised learning은 각각 {data,label}... Read more 10 Dec 2021 - 7 minute read