끄적거림

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 3.Introduce 본문

개인 공부 정리/Bayesian

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 3.Introduce

Signing 2021. 1. 26. 16:50
728x90
반응형

[논문 리뷰] Dropout as a Bayesian Approximation - 1.Prologue

[논문 리뷰] Dropout as a Bayesian Approximation - 2.Abstract

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 3.Introduce

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 4.Related Research (1): Background(MC-Integration, Dropout)

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 4.Related Research (2): Background(Gaussian Process)

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 4.Related Research (3): Background(Bayesian Neural Network, Variational Inference, Re-parameterization trick)

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 5.Methodolgy

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 6.Experiment

[논문 리뷰] Dropout as a Bayesian Approximation 설명 - 7.Conclusion

[논문 실습] Dropout as a Bayesian Approximation 실습 코드 - pytorch ver


본 챕터에서는 uncertainty의 중요성과 활용성에 대해 얘기하는 동시에, uncertainty를 기존에 어떻게 사용했는지에 대해서 말하고 있다.

어느정도 Abstract 부분에서 소개했던 부분과 겹치는 부분이 많이 있으므로 핵심만 짚고 넘어가고자 한다.

 

softmax

 

softmax

우리는 보통 어떤 분류 작업을 진행한다고 가정했을 때, NN의 마지막에 softmax activation function을 걸어 특정 class로 분류할 확률을 구하게 된다.

이때 나오는 확률들 중에서 가장 높은 값이 내가 지정한 threshold 보다 작으면 결과를 믿을 수 없다거나, 확률들이 골고루 퍼져있다면 모델의 의사결정을 보류한다던가 한다.

사실 후자 같은 경우는 실제로 자주 발생하기도 한다.

예를 들어, MNIST 데이터에서 1과 7이 비슷한 확률을 갖는다고 가정할 때, 결정을 보류하는 것이다.

이것이 uncertainty가 있다고 말할 수 있을까?

그럴 수 없다. 왜냐하면, 만약 1과 7의 문제가 아닌 전혀 다른 숫자나 이미지, 예를 들면 알파벳 'a'나 자음인 'ㄱ'이 들어온다면?

여전히 softmax는 일정 확률로 특정 class일 것이다라고 분류를 진행할 것이다.

 

그러므로 우리는 softmax를 uncertainty로써 사용할 수 없다.

 

uncertainty with softmax

위 사진은 논문에 실린 그림이다.

왼쪽 그래프는 softmax의 input, 오른쪽 그래프는 softmax의 output이다.

그래프의 맨 왼쪽에서부터 검은색 점선까지는 training data로 진행한 것이고, 그 이후부터는 training data와 전혀 상관이 없는 데이터로 진행한 것이다.

그리고 검은색 점선 이후의 검정색으로 음영처리 되어 있는 부분은 uncertainty라고 보면 된다.

여기서 우리가 알 수 있는 사실은 uncertainty가 매우 높은 input이 softmax에 들어와도, softmax의 output은 1 이란 확률로 계산이 된다는 것이다.

이 말은 매우 불확실성이 높은 데이터가 들어와도 softmax로 계산하면 결국 불확실성이 높은 결정을 내릴 수 있음을 의미한다.

 

 

 

Reinforce Learning

이 부분에 대해서 서론에 소개가 되고 있지만, 후에 실제 적용하고 실험하는 부분에서 다시 언급이 되기 때문에 이번 절에서는 생략하도록 하겠다.

 

 

 

 

 

 

 

728x90
반응형
Comments