끄적거림

[논문 리뷰] Stochastic gradient Markov chain Monte Carlo - 1.Introduction 본문

개인 공부 정리/Bayesian

[논문 리뷰] Stochastic gradient Markov chain Monte Carlo - 1.Introduction

Signing 2022. 1. 15. 17:37
728x90
반응형

 

 

최근 관심을 갖는 cold posterior를 정확하게 이해하기 위해서는 SG-MCMC에 대한 선이해가 되어야한다.

기존에 cold posterior 관련 포스팅들을 작성하면서 SG-MCMC에 관련된 내용이 많이 나왔었을 뿐 아니라, official google research github에서도 SG-MCMC에 대한 코드를 제공하고 있다.

논문 페이지가 꽤 많지만 중요하다고 생각되는 부분만 해석해서 작성해보고자 한다.

기존에 이전 포스팅에서 abstract을 했으니, 그 이후 내용부터 다루도록 하겠다.


1. Introduction

 

1.1

bayesian approach를 이용한 modelling을 할 때, bayesian posterior distribution은 두 가지 의미를 갖는다. 첫 번째는 모델 parameter의 확률적 uncertainty와 두 번째는 관측되지 않은 새로운 데이터에 대한 prediction을 한다는 것이다.

 

1.2

기본적으로 posterior distribution을 구하는 것은 intractable하며, posterior distribution을 구하기 위한 Laplace approximation, variational Bayes, expectation-propagation 등 deterministic approximation 방법론들이 사용되곤 한다.

하지만 이런 deterministic한 방법들은 정확한 posterior를 구하기 위해서 computational efficiency와 trade-off 관계에 있다는 단점이 있다.

 

1.3

한 편, MCMC 방법론은 어떤 분포(특히 posterior)를 찾아내는데 좋은 알고리즘이며, 적용하기 쉬울 뿐 아니라 만약 posterior가 unnormalised density라도 괜찮다는 것이다.

 

1.4

하지만, MCMC는 점차 정확한 posterior sample을 제공하며 density를 찾아가지만, 실제로 이를 적용하는데 계산 속도가 느리다.

그렇기 때문에 큰 데이터셋을 필요로 하는 분야에서나 정교하고 복잡한 모델을 요하는 분야에서는 활용하기가 어렵다.

 

1.5

만약 데이터를 쪼개어 여러 컴퓨터에 보내고 병렬적으로 MCMC 알고리즘을 적용하여 partial posterior를 sampling할 수 있다면 괜찮을 수 있는데, 문제는 흩어졌던 partial posterior sample들을 merge하는곳에서 발생한다.

만약, 각 partial posterior distribution이 Gaussian이라고 한다면, 각 partial posterior의 mean과 variance에 대해 update되는 rule을 갖고 있기 때문에, 병렬적으로 처리할 수 있지만, 대부분의 경우 non-Gaussian이기 때문에 정확한 approximation이 어렵고, 이를 해결하기 위한 여러 방법론들이 나오긴 했지만, 그마저도 정확도가 좋지 못하다.

 

1.6

병렬적인 방법론 말고, single MCMC를 사용하되 각 iteration에서 subsampling을 하는, 예를 들어 Metropolis-Hasting과 같은, 알고리즘도 하나의 대안이 되기도 하지만, 이 역시 computational speed-up과 accuracy 사이에 trade-off가 존재한다.

 

1.7

그래서 subsampling에 기반한 Stochastic gradient MCMC 방법론을 소개하고자 한다.

이 알고리즘은 discrete-time approximation에서 continuous-time diffusion process를 도출한다.

가장 간단한 예로는 Langevin diffusion이 있고 이것은 posterior를 변하지 않는 고정된 분포로 여긴다.

그러나 실제로 Monte-Carlo sampling에는 확산에서 discrete-time Euler approximation이 사용되며, 이는 unadjusted Langevin 알고리즘으로 알려져 있다.

이산화 오류로 인해 unadjusted Langevin 알고리즘에서 생성된 sample은 posterior distribution을 대략적으로 변하지 않는 분포로 유지하며, Metropolis-type correction을 사용하여 정확하게 만들 수 있다.

Metropolis 수정이 없어도 log-posterior 밀도의 기울기는 전체 데이터를 평가해야 하므로 조정되지 않은 Langevin 알고리즘은 계산 비용이 많이 들 수 있다.

Welling and Teh(2011)는 확률적 경사 하강(Robbins and Monro, 1951년)에서 영감을 받아 비조정된 Langevin 알고리즘의 경사 성분이 전체 데이터의 하위 표본에서 계산된 확률적 근사치로 대체되는 확률적 경사 랑주뱅 알고리즘을 제안했다.

조각별 결정론적 MCMC(Fearnhead 등, 2018)와 같은 다른 서브샘플링 기반 MCMC 기법에 비해 확률적 경사 MCMC의 장점은 광범위한 모델 등급에 적용할 수 있으며 가장 간단한 경우 로그 사후 밀도의 1차 경사만 포인트별로 평가할 수 있다는 것이다.

이러한 알고리즘의 단점은 일관된 추정치를 생성하고 중심 한계 정리를 만족시키면서도(Teh 등, 2016) 기존 MCMC 알고리즘보다 느린 속도로 수렴한다는 것이다.

최근 몇 년 동안 확률적 경사 MCMC 알고리즘은 특히 머신러닝 커뮤니티에서 확장 가능한 베이지안 추론을 위한 인기 있는 도구가 되었으며, 수많은 방법론과 이론적 개발와 이러한 알고리즘에 대한 새로운 적용 영역이 있다.

이 논문은 SG-MCMC의 몇 가지 핵심 개발에 대한 리뷰를 제시하고 미래 연구의 몇 가지 기회를 강조한다.

논문의 내용을 그대로 번역기를 돌린 것인데, 모르는 개념과 말들이 너무 많다.

관련 내용은 뒷 절에서도 소개가 이어지니 일단은 넘아가도록 하자

 

 

 

 

 

 

728x90
반응형
Comments