끄적거림

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 2.Abstract 본문

개인 공부 정리/Bayesian

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 2.Abstract

Signing 2021. 1. 25. 17:02
728x90
반응형

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 1.Prologue

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 2.Abstract

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 3.Introduce

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 4.Related Research (1): Background(MC-Integration, Dropout)

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 4.Related Research (2): Background(Gaussian Process)

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 4.Related Research (3): Background(Bayesian Neural Network, Variational Inference, Re-parameterization trick)

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 5.Methodolgy

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 6.Experiment

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 7.Conclusion

[논문 실습] Dropout as a Bayesian Approximation 실습 코드 - pytorch ver


본 논문의 도입부인 Abstract은 짧으니 간단한 해석과 의역을 통해 내용을 전달하고 내 생각과 필요한 정보를 뒤에 덧붙이겠다.

 


논문의 Abstract

Deep learning tools have gained tremendous attention in applied machine learning.

딥러닝은 머신러닝에서 가장 많이 쓰이는 도구 중 하나이다.

 

However such tools for regression and classification do not capture model uncertainty.

그러나 회귀 혹은 분류 문제에서의 딥러닝은 모델의 불확실성을 잡지 못한다.

 

In comparison, Bayesian models offer a mathematically grounded framework to reason about model uncertainty, but usually come with a prohibitive computational cost.

베이지안 모델은 수학적인 근거로 한 모델의 불확실성을 구할 수 있는 프레임워크를 제공하지만, 방대한 계산량 때문에 사실 잘 못쓰이고 있는 실상이다.

 

In this paper, we develop a new theoretical framework casting dropout training in deep neural networks (NNs) as approximate Bayesian inference in deep Gaussian processes.

본 논문에서는 딥뉴럴넷에 dropout을 걸어 훈련시킴으로써 베이지안 추론을 이용한 딥 가우시안 프로세스로 근사하는 이론적 프레임워크를 개발하였다.

 

A direct result of this theory gives us tools to model uncertainty with dropout NNs extracting information from existing models that has been thrown away so far.

이 이론의 결과물은 기존에 사용되고 있던 dropout을 건 NN 모델에서의 model uncertainty(모델 불확실성)이다.

 

This mitigates the problem of representing uncertainty in deep learning without sacrificing either computational complexity or test accuracy.

이것은 계산 복잡도나 테스트 정확도를 희생시키지 않고 딥 러닝에서 불확실성을 나타내는 문제를 완화한다.

 

We perform an extensive study of the properties of dropout’s uncertainty.

우리는 dropout의 불확실성에 대한 속성들에 대해 광범위한 연구를 수행한다.

 

Various network architectures and nonlinearities are assessed on tasks of regression and classification, using MNIST as an example.

MNIST 데이터를 실험 데이터로 사용하면서 regression과 classification task에서의 많은 NN 아키텍쳐와 비선형성에 대해 평가하고자 한다.

 

We show a considerable improvement in predictive log-likelihood and RMSE compared to existing state-of-the-art methods, and finish by using dropout’s uncertainty in deep reinforcement learning.

이로써, 우리는 log-likelihood(이하 LLH)와 RMSE 부분에서 기존의 SOTA급 보다 괜찮은 성능 향상이 있었고, deep R/L(강화학습)에서 dropout의 불확실성을 사용하면서 마무리 짓겠다.

 


 

Abstract에서처럼 uncertainty를 구하기 위해서는 기존의 방법으로는 베이지안 모델을 사용해야 했지만, 계산량이 방대하기 때문에 실질적으로 uncertainty를 구할 수 없었다.

여기에 Yarin Gal은 dropout을 준 NN 모델이 베이지안 모델로 근사시킬 수 있기 때문에 dropout을 준 NN모델을 이용하여 uncertainty를 구하고자 했다.

이 수학적 근사 방법은 굉장히 실용적으로 uncertainty 모델링에 사용될 수 있었다. 왜냐하면, 기존에 우리는 regularization 목적으로 이미 dropout을 많이 사용하고 있었기 때문이다.

여기에 한 발 더 나아가서 강화학습에도 적용시키는 모습을 볼 수 있다.

그렇기 때문에, 프롤로그에서 말씀드렸듯이 본 논문은 수학 및 통계적 증명이 주를 이루고 있고, 많은 실험 결과를 해석하고 있기 때문에 다소 어렵기도 하다.

 

그러면 이제 먼저 집고 넘어가야할 것이 있다.

여기서 말하는 uncertainty는 무엇을 말하는 것이며 기존의 regression과 classification에서는 왜 uncertainty를 구할 수 없었을까?

 

 

uncertainty란?

하나의 예를 들어보겠다.

  1. 수십만장의 강아지 종과 관련된 이미지 데이터를 가져와서 매우 높은 수준의 강아지종 분류 모델을 만들었다고 가정해보자.
  2. 이제 여기에 기존의 사진과는 완전히 다른 고양이 사진을 넣어보면 어떤 일이 발생할까?
  3. 아마 uncertainty를 고려하지 않은 일반적인 classification 모델이라면 input의 고양이와 가장 닮은 강아지 종을 말할 것이다.

이 결과가 괜찮은 결과라고 생각할 수 있을까? 아니다. 모델은 고양이 사진이 input으로 들어왔을 때 "모른다" 라고 대답했어야했다.

학습한 경험이 없었기 때문이다.

 

모델이 어떤 의사결정을 내릴 때 그에 대한 신뢰할 수 있는 정도, 즉, reliable한 결과인가를 측정하는 도구로써 uncertainty를 사용하는 것이다.

 

 

 

 

Without Uncertainty?

그렇다면 이런 uncertainty를 우리는 왜 중요하게 생각해야할까?

 

구글 포토 어플 사고

실제 사례를 가져와보겠다.

구글에서 제공하는 어플리케이션인 "포토"라는 어플이 있다. 과거 2015년에 이 어플이 두 아메리카사람과 아프리카사람을 고릴라로 분류해버린 것이다.

uncertainty를 고려하지 않은 이미지 분류 모델이었기 때문이다.

그렇기에 uncertainty를 고려한 모델링이 중요하고 새로운 모델이 등장했을 때 그 뒤에 베이지안이 붙어서 나오는 것이 이러한 이유이기 때문이다.

 

 

 

 

Uncertainty modeling

따라서 본 논문에서는 uncertainty의 중요성을 그만큼 강조하고 있고 이런 uncertainty 모델링을 Gaussian Process(GP)와 NN with Dropout을 결합하여 구하고자 한다.

 

GP에 대해서는 다소 생소할 수도 있다.

그렇기 때문에 다음에 이어질 내용에서는 그에 대한 background를 소개하고자 한다.

 

 

 

 

 

 

 

 

 

 

728x90
반응형
Comments