끄적거림

[논문 리뷰] Bayesian Reinforcement Learning: A Survey - 1.Introduction 본문

개인 공부 정리/Bayesian

[논문 리뷰] Bayesian Reinforcement Learning: A Survey - 1.Introduction

Signing 2021. 6. 25. 21:45
728x90
반응형

강화학습과 베이지안을 접목한 분야인 Bayesian Reinforcement Learning(이하 BRL)에 관한 서베이를 찾아서 이를 차근차근 리뷰해보고자 한다.

굉장히 짧고, 내가 이해한 것 위주로 글을 작성할 예정이니 글을 읽으시는 분들은 참고만 하시길 :)

 

서베이: https://arxiv.org/abs/1609.04436

 

Bayesian Reinforcement Learning: A Survey

Bayesian methods for machine learning have been widely investigated, yielding principled methods for incorporating prior information into inference algorithms. In this survey, we provide an in-depth review of the role of Bayesian methods for the reinforcem

arxiv.org


1.

RL은 sequantial data(time, step, action, ...)를 이용하는 반면, 지도학습 방법론은 i.i.d data를 사용한다.

그래서 RL은 sequential하게 system과 상호작용을 한다.

 

 

2.

RL은 크게 두가지(Model-Based, Model-free)로 분류할 수 있다.

 

Model-Based

agent는 수집된 data로 첫번째 모델을 만들고, 이를 동적으로 policy를 최적화하는데 사용한다.

적은 data로도 좋은 결과를 낼 수 있다.

 

Model-free

수집된 data로부터 바로 action을 수행하는 방법을 뜻한다.

정규성을 띄는 solution(==policy) space에서 효율적이다.

 

 

3.

RL의 가장 큰 이슈는 exploration-exploitation trade off 문제이다.

이 이슈는 model-based와 model-free RL 알고리즘에서도 적용되는 문제이다.

 

 

4.

BRL은 베이지안 추론부터 학습과정에서의 정보 통합까지 효과적으로 사용할 수 있는 RL 접근 방법이다.

prior information(확률 분포)에서 새로운 정보가 들어왔을 때, 이 정보가 통합되는 과정은 일반적인 베이지안 추론에 의해 가능하다.

베이즈 추론: https://ko.wikipedia.org/wiki/%EB%B2%A0%EC%9D%B4%EC%A6%88_%EC%B6%94%EB%A1%A0

 

베이즈 추론 - 위키백과, 우리 모두의 백과사전

 

ko.wikipedia.org

 

 

5.

BRL이 좋은 이유 중 하나는 exploration-exploitation 문제를 해결할 수 있다는 것이다.

왜냐하면 bayesian posterior은 전체 stat에 대한 정보가 반영되어 있기 때문이다.

 

또 하나의 BRL이 좋은 이유는 수월하게 정규화를 진행할 수 있다는 것이다.

value-function에 prior를 가정함으로써 true-parameter로부터 벗어나게 하는 것을 방지할 수 있다.

그만큼 prior를 가정함으로써 학습에 도움을 준다는 의미이다.

여기서 prior의 역할은 효율적인 샘플링과 요과적인 정규화를 이끄는 것이다.

 

6.

반대로 주요한 이슈에는 어떻게 regularizatioin coefficient가 선택되는지 명확하게 알기 힘들다는 점이다.

또한, 왜 최적의 value-functioin(or policy)을 미리 정의된 셋에서 정의해야하는지 알기 힘들다.

 

7.

정말 BRL이 좋은 점은 uncertainty를 다룰 수 있다는 것이다.

 

빈도주의적 모델링 관점에서 uncertainty를 구하는 것은 계산적 한계가 존재했지만 이를 BRL이 어느정도 해결해주는 부분이 있다.

 

 

8.

이 서베이에서는 이론을 몇 가지 예를 들어 설명할 예정인데, 그 중 하나가 온라인 쇼핑이다. 

 

 

 

728x90
반응형
Comments