끄적거림

[논문 소개] Stochastic gradient Markov chain Monte Carlo 본문

개인 공부 정리/Bayesian

[논문 소개] Stochastic gradient Markov chain Monte Carlo

Signing 2021. 10. 9. 21:53
728x90
반응형

지난 시간 cold posterior를 파던 중 알면 좋을 것 같은 논문을 찾았고, 나중에 읽어보면 좋을 거 같아 기록용으로 올립니다.

 


link: https://arxiv.org/abs/1907.06986

 

Stochastic gradient Markov chain Monte Carlo

Markov chain Monte Carlo (MCMC) algorithms are generally regarded as the gold standard technique for Bayesian inference. They are theoretically well-understood and conceptually simple to apply in practice. The drawback of MCMC is that in general performing

arxiv.org

 

 

abstract

Markov chain Monte Carlo (MCMC) algorithms are generally regarded as the gold standard technique for Bayesian inference.

MCMC 알고리즘은 베이지안 추론에서 가장 중요하게 사용되는 기본적인 방법론이다.

 

They are theoretically well-understood and conceptually simple to apply in practice.

이 방법론은 이론적으로 잘 이해가되고 개념적으로도 쉬워서 실제로 적용하기 좋다.

 

The drawback of MCMC is that in general performing exact inference requires all of the data to be processed at each iteration of the algorithm.

MCMC의 단점은 정확한 inference를 위해서라면 알고리즘의 각 iteration에서 모든 데이터에 대해 적용이 되어야한다는 것이다.

 

For large data sets, the computational cost of MCMC can be prohibitive, which has led to recent developments in scalable Monte Carlo algorithms that have a significantly lower computational cost than standard MCMC.

그래서 큰 데이터셋에서는 계산비용이 엄청나다. 최근 scalable MC 알고리즘에서 개발된 것은 기존의 MCMC보다 덜 계산비용이 들어가긴 하다.

 

In this paper, we focus on a particular class of scalable Monte Carlo algorithms, stochastic gradient Markov chain Monte Carlo (SGMCMC) which utilises data subsampling techniques to reduce the per-iteration cost of MCMC.

이 논문에서는 scalable MC 알고리즘의 한 종류인 SGMCMC에 중심적으로 다루고 있다.

SGMCMC: MCMC의 매 iteration 비용을 줄여주는 subsampling 기법을 사용한다.

 

We provide an introduction to some popular SGMCMC algorithms and review the supporting theoretical results, as well as comparing the efficiency of SGMCMC algorithms against MCMC on benchmark examples.

유명한 SGMCMC 알고리즘들을 소개하고, SGMCMC와 MCMC의 효율성을 비교하는 지지하는 이론적 결과를 리뷰하였다고 한다.

 

 

 

comment

본 논문에서 SG-MCMC를 주로 사용하는데, 이것은 전 포스팅에서도 소개했던 How Good is the Bayes Posterior in Deep Neural Networks Really? 에서의 핵심 알고리즘으로 소개된다.

그리고 본 논문의 2.1.절에서 The Langevin Diffusion 라는 개념이 나오는데, 물리학에서 브라운 운동에 대한 표현식으로 사용되는 개념을 가져온 것으로 보여진다.(그럼 R.P. , random process와도 연관이 있는건가?)

그 중 potential function이라는 것이 Langevin Diffusion의 핵심으로 보여지는데, 이 부분이 중요한듯하다.

아래 그림은 potential function을 나타낸 것이다.

꼴을 자세히 보면, 결국 모든 데이터에 대해 likelihood와 prior를 곱한 꼴이므로 posterior에 가깝다고 볼 수 있는데, 위의 U(theta)를 수식으로 나열하면 다음과 같다.

모든 데이터에 대해 log-likelihood를 더하고, 그 값에 log prior를 더하여 음수를 씌운 수식으로 정리할 수 있다.

 

 

 

 

아래는 MCMC에 대해 잘 설명한 정리글이 있어 공유한다.

https://angeloyeo.github.io/2020/09/17/MCMC.html

 

Markov Chain Monte Carlo - 공돌이의 수학정리노트

 

angeloyeo.github.io

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90
반응형
Comments