끄적거림

[논문 소개] Cold Posterior Effect 관련 논문들 본문

개인 공부 정리/Bayesian

[논문 소개] Cold Posterior Effect 관련 논문들

Signing 2021. 10. 9. 20:53
728x90
반응형

베이지안 관련 최신 논문들을 찾다보니 또 하나의 새로운 개념을 알게 되었다.

Cold Posterior Effect(이하 CPE.)라는 개념인데 아직 계속해서 공부중이고, 이 것을 파다보니 연관된 다른 논문들이 많이 나와서 소개하고자 한다.

이 논문들을 다 리뷰하면 좋겠지만 시간이 될 지 모르겠다ㅠㅠ

아래의 순서는 중요도 혹은 논문 우선순위 등과는 아무런 연관이 없다.

 


1. A statistical theory of cold posteriors in deep neural networks

link: https://arxiv.org/abs/2008.05912

 

A statistical theory of cold posteriors in deep neural networks

To get Bayesian neural networks to perform comparably to standard neural networks it is usually necessary to artificially reduce uncertainty using a "tempered" or "cold" posterior. This is extremely concerning: if the prior is accurate, Bayes inference/dec

arxiv.org

abstract

To get Bayesian neural networks to perform comparably to standard neural networks it is usually necessary to artificially reduce uncertainty using a "tempered" or "cold" posterior.

Standard NN과 비슷한 수준의 BNN을 구하기 위해서는 "tempered" 혹은 "cold" posterior를 사용하여 불확실성을 줄여야한다.(온도 개념이 결합된 느낌...)

 

This is extremely concerning: if the prior is accurate, Bayes inference/decision theory is optimal, and any artificial changes to the posterior should harm performance.

prior가 명확하다면, 베이즈 추론/결정 이론이 가장 적합할 것이고, posterior에 대한 인공적인 변화는 안좋은 성능을 낼 것이다.

 

While this suggests that the prior may be at fault, here we argue that in fact, BNNs for image classification use the wrong likelihood.

prior가 잘못되었다면, image classfication같은 과제에서 BNN은 잘못된 likelihood를 사용할 것이다.

 

In particular, standard image benchmark datasets such as CIFAR-10 are carefully curated.

특히, CIFAR-10 같은 standard image dataset에서는 더 그렇다.

 

We develop a generative model describing curation which gives a principled Bayesian account of cold posteriors, because the likelihood under this new generative model closely matches the tempered likelihoods used in past work.

본 연구자들은 cold posterior의 원칙적인 베이지안 설명을 덧붙여 생성모델을 개발했다고 한다.

왜냐하면, 생성모델에 대한 likelihood는 과거 연구에서 사용되었던 tempered likelihood와 비슷하기 때문이다.

 

 

comment

내 개인적으로는 이 논문은 cold posterior의 입문서 같은 느낌이 든다.

다 읽어보진 않았지만, 다른 논문들에 비해 cold posterior에 대해 깊이 다룬다는 느낌이 든다.

 

 

 

 

 

 


2. What Are Bayesian Neural Network Posteriors Really Like?

link: https://arxiv.org/abs/2104.14421

 

What Are Bayesian Neural Network Posteriors Really Like?

The posterior over Bayesian neural network (BNN) parameters is extremely high-dimensional and non-convex. For computational reasons, researchers approximate this posterior using inexpensive mini-batch methods such as mean-field variational inference or sto

arxiv.org

 

abstract

The posterior over Bayesian neural network (BNN) parameters is extremely high-dimensional and non-convex.

BNN parameter의 posterior는 매우 high-dimensional하고 convex하지 않다.

 

For computational reasons, researchers approximate this posterior using inexpensive mini-batch methods such as meanfield variational inference or stochastic-gradient Markov chain Monte Carlo (SGMCMC).

연산적인 이유로, 연구자들은 이런 posterior를 expensive하지 않은 mini-batch 방법론을 사용하여 근사한다.

예를 들면, meanfield variational inference 혹은 SGMCMC와 같은 방법론이 있다.

 

To investigate foundational questions in Bayesian deep learning, we instead use full-batch Hamiltonian Monte Carlo (HMC) on modern architectures.

베이지안 딥러닝에 대해 근본적인 물음에 답하기 위해, 본 연구진들은 HMC 방법론을 최신 아키텍쳐에 사용하였다고 한다.

 

We show that

(1) BNNs can achieve significant performance gains over standard training and deep ensembles;

BNN이 standard 학습법과 deep 앙상블을 뛰어 넘는 유의미한 성능을 보였다.

 

(2) a single long HMC chain can provide a comparable representation of the posterior to multiple shorter chains;

단일의 긴 HMC chain은 다중의 더 짧은 chain들과 posterior의 representation에 대해 동등한 수준의 성능을 보여준다.

 

(3) in contrast to recent studies, we find posterior tempering is not needed for near-optimal performance, with little evidence for a “cold posterior” effect, which we show is largely an artifact of data augmentation;

다른 최신 논문들과 비교했을 때, 본 연구진들은 posterior tempering이 꼭 최적에 근사한 수준의 성능이 필요하진 않는 것을 밝혀냈다.

여기서 posterior tempering은 "cold posterior" effect의 작은 증거가 될 수 있고, 이것은 data augumentation의 큰 발견이라 볼 수 있다.

 

(4) BMA performance is robust to the choice of prior scale, and relatively similar for diagonal Gaussian, mixture of Gaussian, and logistic priors;

BMA 성는은 prior의 scale에 대해 robust하며, 상대적으로 diagonal Gaussian, mixture Gaussian, 그리고 logistic prior와 비슷한 성능이라고 한다.

 

(5) Bayesian neural networks show surprisingly poor generalization under domain shift;

BNN은 domain이 변경되면 놀랄만큼 일반화를 이루지 못한다.

 

(6) while cheaper alternatives such as deep ensembles and SGMCMC can provide good generalization, they provide distinct predictive distributions from HMC.

반면에 값싼 대체품, 예를 들면 딥앙상블과 SGMCMC, 같은 것들은 좋은 일반화를 보여준다. 이 방법론들은 HMC로부터 유일한 predictive distribution을 제공한다. 

 

Notably, deep ensemble predictive distributions are similarly close to HMC as standard SGLD, and closer than standard variational inference.

딥앙상블의 predictive distribution은 standard SGLD로써의 HMC와 매우 비슷하고, standard V.I와 더 비슷하다.

 

comment

본 논문은 구글 리서치 팀과 뉴욕대가 공동 연구한 논문이다. 직접적인 cold posterior를 다루고 있지는 않지만, 무려 구글리서치팀과 뉴욕대의 합작품이고, BNN의 posterior에 대해 깊히 다루고 있다는 느낌이다.

전체 페이지는 24페이지이지만, 실질적인 내용은 13페이지 정도이다.(그래도 많은 느낌...ㅠ)

 

 

 

 

 


3. Disentangling the Roles of Curation, Data-Augmentation and the Prior in the Cold Posterior Effect

link: https://arxiv.org/abs/2106.06596

 

Disentangling the Roles of Curation, Data-Augmentation and the Prior in the Cold Posterior Effect

The "cold posterior effect" (CPE) in Bayesian deep learning describes the uncomforting observation that the predictive performance of Bayesian neural networks can be significantly improved if the Bayes posterior is artificially sharpened using a temperatur

arxiv.org

 

abstract

The "cold posterior effect" (CPE) in Bayesian deep learning describes the uncomforting observation that the predictive performance of Bayesian neural networks can be significantly improved if the Bayes posterior is artificially sharpened using a temperature parameter T<1.

베이지안 딥러닝에서의 C.P.E.는 T<1 인 temperature parameter을 이용하여 Bayes posterior를 인공적으로 뾰족하게 하여 예측 성능 향상을 이끌었다.

 

The CPE is problematic in theory and practice and since the effect was identified many researchers have proposed hypotheses to explain the phenomenon.

CPE는 이론과 실제에서 문제가 있으며, 그 효과가 확인된 이후 많은 연구자들이 이 현상을 설명하기 위해 가설을 제안했다.

 

However, despite this intensive research effort the effect remains poorly understood.

그러나 집중적인 연구에도 아직 그 효과는 잘 이해되지 않고 있다.

 

In this work we provide novel and nuanced evidence relevant to existing explanations for the cold posterior effect, disentangling three hypotheses:

이번 연구에서는 C.P.E.에 대한 기존 설명과 3가지 가설을 준비했다.

 

1. The dataset curation hypothesis of Aitchison (2020):

we show empirically that the CPE does not arise in a real curated data set but can be produced in a controlled experiment with varying curation strength.

CPE는 실제 큐레이션된 데이터 세트에서 발생하지 않지만 큐레이션 강도가 다양한 통제된 실험에서 생성될 수 있음을 경험적으로 보여준다.

 

2. The data augmentation hypothesis of Izmailov et al. (2021) and Fortuin et al. (2021):

we show empirically that data augmentation is sufficient but not necessary for the CPE to be present.

경험적으로 data augmentation이 충분하지만, CPE를 위해서라면 필요하지 않다는 것을 보여준다.

 

3. The bad prior hypothesis of Wenzel et al. (2020):

we use a simple experiment evaluating the relative importance of the prior and the likelihood, strongly linking the CPE to the prior.

CPE와 긴밀히 연관이 있는 prior의 중요성과 가능성을 평가하는 실험을 했다.

 

Our results demonstrate how the CPE can arise in isolation from synthetic curation, data augmentation, and bad priors.

본 연구 결과는 어떻게 CPE가 synthetic curation, data augmentation, and bad priors로 부터 분리하여 뜰 수 있었는지를 설명한다.

 

Cold posteriors observed "in the wild" are therefore unlikely to arise from a single simple cause;

실제적으로 관찰되는 cold posterior는 단순한 원인에 의해 발생하는 것처럼 보이지 않는다.

 

as a result, we do not expect a simple "fix" for cold posteriors.

결과적으로 우리는 간단한 6개의 cold posterior를 기대하진 않았다.

결과적으로 우리는 간단한 고정된 cold posterior를 기대하진 않는다.(수정 반영)

 

 

 


4. Data augmentation in Bayesian neural networks and the cold posterior effect

link: https://arxiv.org/abs/2106.05586

 

Data augmentation in Bayesian neural networks and the cold posterior effect

Data augmentation is a highly effective approach for improving performance in deep neural networks. The standard view is that it creates an enlarged dataset by adding synthetic data, which raises a problem when combining it with Bayesian inference: how muc

arxiv.org

 

abstract

Data augmentation is a highly effective approach for improving performance in deep neural networks.

Data augmentation은 딥뉴럴넷 모델의 성능을 향상시키기 위해 효율적인 접근이었다.

 

The standard view is that it creates an enlarged dataset by adding synthetic data, which raises a problem when combining it with Bayesian inference:

일반적인 관점에서는 synthetic data를 추가하여 확대된 데이터 집합을 생성한다는 것인데, 이는 bayesian inference와 합쳐질 때 문제가 발생한다.

 

how much data are we really conditioning on?

실제로 우리는 얼마나 많은 데이터를 조절하고 있는가?

 

This question is particularly relevant to recent observations linking data augmentation to the cold posterior effect.

이 질문은 특히 data augumentation과 cold posterior effect(C.P.E.)를 연결하는 최신 연구와 관련이 있다.

 

We investigate various principled ways of finding a log-likelihood for augmented datasets.

우리는 augmented된 데이터셋의 log-likelihood를 찾는 다양한 방법을 조사했다.

 

Our approach prescribes augmenting the same underlying image multiple times, both at test and train-time, and averaging either the logits or the predictive probabilities.

본 논문에서 소개하는 방법은 test와 훈련 시간 모두 동일한 기본 이미지를 여러 번 확장하고 로짓 또는 예측확률을 평균화하는 것을 규정한다.

 

Empirically, we observe the best performance with averaging probabilities.

경험적으로, 우리는 평균 확률로 최고의 성능을 관찰한다.

 

While there are interactions with the cold posterior effect, neither averaging logits or averaging probabilities eliminates it.

C.P.E. 와 상호작용이 있지만 averaging logit & probability 가 그것을 제거하지 못한다.

 

 

comment

cold posterior가 data augumentation에 좋다는 내용은 이미 여러 논문에서 나왔고, 그 중 가장 대표적인 논문이 본 논문인듯하다. 어떻게 cold posterior를 사용했는지 살펴보면 좋을 거 같다.

 


5. Why Cold Posteriors? On the Suboptimal Generalization of Optimal Bayes Estimates

link: https://openreview.net/pdf?id=cu6zDHCfhZx 

 

abstract

Recent works have shown that the predictive accuracy of Bayesian deep learning models exhibit substantial improvements when the posterior is raised to a 1/T power with T < 1.

 

In this work, we explore several possible reasons for this surprising behavior

 

 

 

 


6. How Good is the Bayes Posterior in Deep Neural Networks Really?

link: https://arxiv.org/abs/2002.02405

 

How Good is the Bayes Posterior in Deep Neural Networks Really?

During the past five years the Bayesian deep learning community has developed increasingly accurate and efficient approximate inference procedures that allow for Bayesian inference in deep neural networks. However, despite this algorithmic progress and the

arxiv.org

 

abstract

During the past five years the Bayesian deep learning community has developed increasingly accurate and efficient approximate inference procedures that allow for Bayesian inference in deep neural networks.

지난 5년 동안 베이지안 딥러닝 학회에서는 accurate 향상과 효율적인 deep NN에서의 베이지안 inference에 대한 approximate inference 방법을 개선하고자 하였다.

 

However, despite this algorithmic progress and the promise of improved uncertainty quantification and sample efficiency there are (as of early 2020) no publicized deployments of Bayesian neural networks in industrial practice.

그러나 이 알고리즘적 진보와 uncertainty의 측정과 샘플링의 향상 가능성에도 불구하고(2020년 초) 실제로 BNN을 산업에 잘 적용하지 못하고 있었다.

 

In this work we cast doubt on the current understanding of Bayes posteriors in popular deep neural networks:

이번 연구에서는 유명한 deep NN에서의 bayes posterior에 대한 현재의 이해도에 대해 합리적인 의심을 던진다.

 

we demonstrate through careful MCMC sampling that the posterior predictive induced by the Bayes posterior yields systematically worse predictions compared to simpler methods including point estimates obtained from SGD.

MCMC sampling방법으로 bayes posterior에 의해 유도된 posterior를 산출하는 것이 SGD로부터 얻는 points estimates를 포함한 간단한 방법보다 더 안좋은 결과를 낸다는 것을 입증했다.

(MCMC가 SGD보다 안좋다.)

 

Furthermore, we demonstrate that predictive performance is improved significantly through the use of a "cold posterior" that overcounts evidence.

그래서, predictive performance가 "cold posterior"를 사용했을 때 유의미하게 향상하는 것을 입증했다.

 

Such cold posteriors sharply deviate from the Bayesian paradigm but are commonly used as heuristic in Bayesian deep learning papers.

이런 cold posterior는 베이지안 페러다임에서는 크게 빗나가지만, 베이지안 딥러닝 연구에서는 휴리스틱하게 흔히 사용되곤 한다.

 

We put forward several hypotheses that could explain cold posteriors and evaluate the hypotheses through experiments.

본 논문에서는 cold posterior가 무엇인지 설명하고 실험을 통해 가설을 평가할 수 있도록 했다.

 

Our work questions the goal of accurate posterior approximations in Bayesian deep learning:

본 연구에서는 베이지안 딥러닝에서 더 정확한 posterior approximation의 목표로 하는 것을 의문점으로 삼았다:

 

If the true Bayes posterior is poor, what is the use of more accurate approximations?

만약 true Bayes posteior가 별로라면, 더 정확한 approximation은 무엇일까?

 

Instead, we argue that it is timely to focus on understanding the origin of the improved performance of cold posteriors.

대신에, cold posterior의 향상된 성능의 근원을 이해하는 데 초점을 맞추는 것이 시기적절하다고 주장한다.

 

comment

이 논문이 사실 cold posterior를 처음으로 말한 논문인 것 같다. 무려 33페이지나 되지만 구글 브레인쪽에서 낸 논문인듯하다. 언제 다 읽을까 싶으면서도 본 개념을 언능 이해하고 넘어가야할 것 같다.

 

 

 


7. Cold Posteriors and Aleatoric Uncertainty

linkhttps://arxiv.org/abs/2008.00029

 

Cold Posteriors and Aleatoric Uncertainty

Recent work has observed that one can outperform exact inference in Bayesian neural networks by tuning the "temperature" of the posterior on a validation set (the "cold posterior" effect). To help interpret this phenomenon, we argue that commonly used prio

arxiv.org

 

abstract

Recent work has observed that one can outperform exact inference in Bayesian neural networks by tuning the "temperature" of the posterior on a validation set (the "cold posterior" effect).

최근 연구들은 BNN에서 validation set에서의 posterior에 대한 temperature tuning으로 더 정확한 inference가 가능해졌다는 것을 보여주고 있다.

 

To help interpret this phenomenon, we argue that commonly used priors in Bayesian neural networks can significantly overestimate the aleatoric uncertainty in the labels on many classification datasets.

이 현상에 대해 설명하기 위해서는, BNN이 더 많은 분류 데이터셋에서의 aleatoric uncertainty를 과대평가한다는 것을 규명해야한다.

 

This problem is particularly pronounced in academic benchmarks like MNIST or CIFAR, for which the quality of the labels is high.

이 문제는 MNIST와 CIFAR과 같이 labeling이 잘 되어있는 데이터셋에서 더욱 명백하다.

 

For the special case of Gaussian process regression, any positive temperature corresponds to a valid posterior under a modified prior, and tuning this temperature is directly analogous to empirical Bayes.

G.P.R.의 case를 보면, positive temperature는 수정된 prior를 통해 명확한 posterior와 연관이 있고, 이 temperature는 empirical Bayes와 매우 유사하다.

 

On classification tasks, there is no direct equivalence between modifying the prior and tuning the temperature, however reducing the temperature can lead to models which better reflect our belief that one gains little information by relabeling existing examples in the training set.

분류 문제에서, prior를 수정하는 것과 temperature를 tuning하는 것이 동일하다는 이론은 없지만, temperature를 줄여주는 것은 training set에서 존재하는 example을 re-labeling함으로써 작은 information을 얻을 수 있다는 belief(=prior)를 반영하도록 모델을 학습한다.

 

Therefore although cold posteriors do not always correspond to an exact inference procedure, we believe they may often better reflect our true prior beliefs.

그러므로 비록 cold posterior가 항상 정확한 inference procedure을 따르지는 않지만, 본 연구진들은 이 것이 true prior belief를 더 잘 반영할 수 있다고 믿는다.

 

comment

불과 5페이지 밖에 안되어 짧지만, 내가 원하는 uncertainty와 관련된 논문

 

 

728x90
반응형
Comments