끄적거림

[논문 리뷰] On Uncertainty, Tempering, and Data Augmentation in Bayesian Classification - 2.Related Work 본문

개인 공부 정리/Bayesian

[논문 리뷰] On Uncertainty, Tempering, and Data Augmentation in Bayesian Classification - 2.Related Work

Signing 2022. 12. 27. 23:27
728x90
반응형

[논문 소개] On Uncertainty, Tempering, and Data Augmentation in Bayesian Classification - 0.Abstract 

[논문 리뷰] On Uncertainty, Tempering, and Data Augmentation in Bayesian Classification - 1.Introduction

 


2.1. BNN의 연구 동향

BNN에 대한 연구들은 Laplace approximations, variational methods, and Hamiltonian Monte Carlo based MCMC 등을 이용하여 hyperparameter learning과 overfitting을 완화하는 연구를 해왔었다.

최근에 들어서는 아래의 연구들이 진행되었었다.

  • Bayesian Deep Learning and a Probabilistic Perspective of Generalization 에서는 베이지안 모델의 averaging은 최근의 deep network에 얼마나 특화되어 있는지를 보여준다.
    • deep ensemble as bayesian inference
    • induced priors in function space
    • mitigating double descent
    • generalization behaviour in deep learning
    • posterior tempering
    • connections with loss surface structure such as mode connectivity
  • 다른 한 편으로는 Bayesian Deep Learning을 실용적으로 사용할 수 있는 방면으로 연구가 다수 진행되었다.
    • better results than classical training
    • essentially no additional runtime overhead

 

 

2.2. Cold posterior

How Good is the Bayes Posterior in Deep Neural Networks Really? 해당 논문에서는 SGLD inference를 사용한 상황에서  $1/T, T < 1$ 제곱을 한  posterior(cold posterior)가 일반적인 훈련보다 성능이 증가하는 몇 가지 예시를 들었다.($T=1$이면 classical training과 동일함.)

그러나 What Are Bayesian Neural Network Posteriors Really Like? 논문에서는 위의 논문에서 나온 모든 case들에 data augmentation을 제거한다면 cold posterior effect는 없다고 주장하고 있다.

실제로 Disentangling the Roles of Curation, Data-Augmentation and the Prior in the Cold Posterior Effect 논문에서는 data augmentation이 오직 CIFAR-10에 대해서만 cold posterior를 설명하고 있고, data augmentation이 없는 IMDB에서는 cold posterior effect가 없다고 주장하고 있다.

cold posterior effect를 관측하기 위한 data augmentation의 활용성은 SG-MCMC inference를 사용한 몇 가지 연구를 통해 발혀져왔다.

 

 

2.3. cold posterior와 prior

몇몇 연구는 잘못 사용된 prior가 cold posterior를 설명한다고 제안했고, 요즘 BNN에서 iostropic Gaussian prior를 잘못 사용하고 있다고 주장하고 있다.

하지만, Bayesian Neural Network Priors Revisited 논문에서 data augmentation에서의 매우 치우치거나 상관관계가 큰  prior를 사용함으로써 CNN에서 cold posterior effect가 줄어들지 않는다는 것을 발견했다.

해당 논문이 Gaussian prior와 no data augmentation을 사용한 fully connected MLP를 Fashion MNIST에 대해 cold posterior가 있었다고 주장했지만, 실험에서 보여준 성과가 매우 미미한 수준이었고(Fashion MNIST에서 test accuracy가 약 0.25% 상승), 이것은 calibration이나 OOD에 취약하다는 것을 보여준다.

게다가, Bayesian Deep Learning and a Probabilistic Perspective of Generalization 논문은 How Good is the Bayes Posterior in Deep Neural Networks Really? 논문에서의 poor prior를 사용한 실험이 prior의 variance scale을 조절함으로써 쉽게 해결할 수 있다는 것을 보여주고, isotropic Gaussian prior가 실험적이게 효과가 있었으며 함수 공간에서 괜찮은 특성을 제공한다는 것을 보였다.

What Are Bayesian Neural Network Posteriors Really Like? 논문에서도 standard Gaussian prior가 heavy-tailed logistic prior와 mixture of Gaussian prior와 같은 다른 비슷한 종류의 prior와 비슷하게 작용하고 있으며, 일반적으로 HMC inference를 사용한 deep ensemble과 표준 training보다 높은 성능을 보이고 있다.

cold posterior 말고, Dangers of Bayesian Model Averaging under Covariate Shift 논문은 BNN에서 사용되는 standard prior가 covariate shift 상황에서 얼마나 심각한 성능 저하(BNN을 사용하는 현실의 적용사례에 잠재적으로 영향을 미칠 수 있다)를 일으키는지를 설명하고 있다.

 

 

2.4. cold posterior와 data augmentation

Disentangling the Roles of Curation, Data-Augmentation and the Prior in the Cold Posterior Effect 논문에서는 likelihood, prior, data augmentation과 같은 많은 다른 요소들이 cold posterior를 일으킨다는 것과 그것에 대한 일반적인 원인은 없을지도 모른다고 주장하고 있다.

이런 관찰과 주장들은 Bayesian Deep Learning and a Probabilistic Perspective of Generalization 논문에서 선행되었는데,

tempering하는 것이 광범위한 misspecification(예를 들면, $T=1$인 일반적인 상황에서 최고의 성능이 나온다는 것과 같은)을 부분적으로 해결할 수 있다는 것을 주장하고 있다는 것이다.

다시 말해, 모델이 조금이라도 misspecified되었다면 우리는 $T=1$이 차선일 것이라고 예상할 것이고, 어떠한 노력에도 불구하고 모델이 완벽하게 specified되지 않을 것이기 때문에, $T=1$이라고 요구하거나 그렇지 않다면 특별히 경고하는 것은 불합리하는 것이다.

또한 Disentangling the Roles of Curation, Data-Augmentation and the Prior in the Cold Posterior Effect 논문은 Gaussian prior가 복잡한 가설에 무게를 두고 있어 결국 성능이 떨어질 수 있다고 제안하는 반면, Bayesian Deep Learning and a Probabilistic Perspective of Generalization 논문은 parameter에 대한 Gaussian prior가 함수 공간에서 유용한 prior를 유도하는 방법을 보여준다.

어느 쪽이든, 위와 같이, 논문의 모든 실험을 포함하여 data augmentation을 제거하면 실제로 cold posterior effect가 거의 제거된다.

 

 

2.5. cold posterior와 aleatoric uncertainty

A statistical theory of cold posteriors in deep neural networks 논문에서는 많은 benchmark dataset이 사람손(human labelers)을 많이 타왔기 때문에 BNN의 likelihood가 misspecified 된다는 것을 주장하고 있다.

일부 라벨과 일치하지 않는 샘플은 버리는 방법에 의존할 때, 우리의 likelihood는 $p(y|x)^{H}, H는 human~labeler$형태를 갖고 이것은 likelihood tempering과 관련이 있다.

posterior tempering은 label noise의 존재에 그다지 도움이 되지 않는다.

Cold Posteriors and Aleatoric Uncertainty 논문에서도 model misspecification을 고려하여 Aleatoric uncertainty가 잘못 측정되었을 때, Gaussian Process Regression에서 정확한 추론으로도 cold posterior effect가 발생할 수 있음을 보여주고 있다.

Data augmentation in bayesian neural networks and the cold posterior effect 논문에서는 augmentation에 대한 신경망의 output의 평균을 관찰 모델로 사용하여 data augmentation을 수용하는 likelihood를 수정하였지만, augmentation이 없는 cold posterior가 없음에도 불구하고 여전히 cold posterior effect를 찾는 노력을 했다.

 

 

2.6. contribution

본 논문에서는 이전에 행해졌던 연구 맥락에서 몇 가지 독특한 기여를 한다.

  1. standard likelihood는 aleatoric uncertainty에 대한 믿음을 나타내지 않고 있으며, standard benchmark dataset은 기본적으로  aleatoric uncertainty를 가지고 있지 않다.
  2. tempering과 data augmentation은 curation을 넘어 aleatoric uncertainty를 특정 짓는지를 보이고 있다.
  3. 우리는 SGLD를 사용한 data augmentation이 likelihood에 대한 underconfidence로 이어지는 정확한 방법을 보여주는데, 이는 data augmentation과 cold posterior간의 경험적 연결을 최종적으로 해결하는 직관에 반하는 결과이다.
  4. $T < 1$이, 특히 data augmentation에서, $T=1$보다 aleatoric uncertainty에 대한 우리의 믿음을 더 잘 반영하고 있다고 볼 수 있다.
  5. 원래 계산 가능한 Gaussian process classification에 사용된 Dirichlet likelihood의 log-normal 근사치가 어떻게 aleatoric uncertainty에 대한 우리의 믿음을 자연스럽게 반영할 수 있는지를 보여주며, data augmentation에서 처음으로 cold posterir effect를 제거하였다.
  6. prior가 aleatoric uncertainty에 대한 우리의 믿음을 명시하는데 사용될 수 있다는 것을 보인다.

 

 

 

 

728x90
반응형
Comments