일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- bayesian
- 불확실성
- R
- PYTHON
- 논문리뷰
- GNN
- DATA
- 데이터분석
- YarinGal
- 베이지안
- 우분투
- pandas
- 알고리즘
- 텍스트분석
- 크롤링
- 빅데이터
- selenium
- Graph
- 코딩테스트
- 백준
- dropout
- VAE
- uncertainty
- 강화학습
- AI
- Crawling
- 리눅스
- pytorch
- 파이썬
- 텍스트마이닝
- Today
- Total
끄적거림
[논문 리뷰] Bayesian Reinforcement Learning: A Survey - 1.Introduction 본문
[논문 리뷰] Bayesian Reinforcement Learning: A Survey - 1.Introduction
Signing 2021. 6. 25. 21:45강화학습과 베이지안을 접목한 분야인 Bayesian Reinforcement Learning(이하 BRL)에 관한 서베이를 찾아서 이를 차근차근 리뷰해보고자 한다.
굉장히 짧고, 내가 이해한 것 위주로 글을 작성할 예정이니 글을 읽으시는 분들은 참고만 하시길 :)
서베이: https://arxiv.org/abs/1609.04436
1.
RL은 sequantial data(time, step, action, ...)를 이용하는 반면, 지도학습 방법론은 i.i.d data를 사용한다.
그래서 RL은 sequential하게 system과 상호작용을 한다.
2.
RL은 크게 두가지(Model-Based, Model-free)로 분류할 수 있다.
Model-Based
agent는 수집된 data로 첫번째 모델을 만들고, 이를 동적으로 policy를 최적화하는데 사용한다.
적은 data로도 좋은 결과를 낼 수 있다.
Model-free
수집된 data로부터 바로 action을 수행하는 방법을 뜻한다.
정규성을 띄는 solution(==policy) space에서 효율적이다.
3.
RL의 가장 큰 이슈는 exploration-exploitation trade off 문제이다.
이 이슈는 model-based와 model-free RL 알고리즘에서도 적용되는 문제이다.
4.
BRL은 베이지안 추론부터 학습과정에서의 정보 통합까지 효과적으로 사용할 수 있는 RL 접근 방법이다.
prior information(확률 분포)에서 새로운 정보가 들어왔을 때, 이 정보가 통합되는 과정은 일반적인 베이지안 추론에 의해 가능하다.
베이즈 추론: https://ko.wikipedia.org/wiki/%EB%B2%A0%EC%9D%B4%EC%A6%88_%EC%B6%94%EB%A1%A0
5.
BRL이 좋은 이유 중 하나는 exploration-exploitation 문제를 해결할 수 있다는 것이다.
왜냐하면 bayesian posterior은 전체 stat에 대한 정보가 반영되어 있기 때문이다.
또 하나의 BRL이 좋은 이유는 수월하게 정규화를 진행할 수 있다는 것이다.
value-function에 prior를 가정함으로써 true-parameter로부터 벗어나게 하는 것을 방지할 수 있다.
그만큼 prior를 가정함으로써 학습에 도움을 준다는 의미이다.
여기서 prior의 역할은 효율적인 샘플링과 요과적인 정규화를 이끄는 것이다.
6.
반대로 주요한 이슈에는 어떻게 regularizatioin coefficient가 선택되는지 명확하게 알기 힘들다는 점이다.
또한, 왜 최적의 value-functioin(or policy)을 미리 정의된 셋에서 정의해야하는지 알기 힘들다.
7.
정말 BRL이 좋은 점은 uncertainty를 다룰 수 있다는 것이다.
빈도주의적 모델링 관점에서 uncertainty를 구하는 것은 계산적 한계가 존재했지만 이를 BRL이 어느정도 해결해주는 부분이 있다.
8.
이 서베이에서는 이론을 몇 가지 예를 들어 설명할 예정인데, 그 중 하나가 온라인 쇼핑이다.