카테고리 없음

[논문 리뷰] An Uncertainty-aware Loss Function for Training Neural Networks with Calibrated Predictions

Signing 2023. 3. 20. 21:07
728x90
반응형
https://arxiv.org/pdf/2110.03260.pdf

간단하게 리뷰할 예정!

 

 

0. Abstract

  • 이 연구에서는 Cross-Entropy와 Expected Calibration Error(ECE) 및 Predictive Entropy(PE)를 결합한 두 가지 새로운 손실 함수를 제안함.
  • 올바른 예측과 부정확한 예측의 불확실성 추정 분포 간의 중첩을 최소화하면서도 모델의 전반적인 성능을 희생하지 않는 새로운 하이브리드 손실 함수의 큰 영향을 확인
  • 이 연구는 불확실성 양자화를 통해 모델의 예측 결과를 더 신뢰할 수 있도록 개선하는 방법을 제안하고, 새로운 손실 함수가 이를 달성하는 데 효과적임을 실험적으로 입증

 

1. Introduction

  • Uncertainty가 얼머나 중요한지를 언급.
  • 대표적인 Uncertainty 측정 방법인 MC dropout, 베이지안 Variational Inference 등을 언급함.

  • 위 사진1은 올바른 예측을 했을 때 낮은 Uncertainty 분포를, 틀린 예측을 했을 때 높은 Uncertainty 분포를 보임을 나타내고 있다.
  • 본 논문은 이러한 두 분포의 교집합적인 부분을 최소화하는 것을 목표로 했다.
  • 결과적으로 잠재적으로 부정확한(위험한) 예측은 안전하게 발견하고 uncertainty를 estimate하는 동안 조심스럽게 처리하는 것이 목표인 것이다.

 

2. Literature Review

  • Uncertainty quantification이 왜 필요한지, 왜 중요한지를 언급함.
  • epistemic & aleatoric 두 종류의 uncertainty가 있음을 언급함. -> [논문 리뷰] What uncertainties do we need in Bayesian deep learning for computer vision? 논문 위주의 내용
  • 의학 application 중에서 장기기관 인식에 대한 논문 언급
    • image tagging & anatomical structure classification 접근방법을 사용
    • superpixel classification 방법론을 사용
  • "An exploration of uncertainty information for segmentation quality assessment" 논문에서는 segmentation model에 대해 uncertainty measuring을 진행할 때, MC dropout UNet, UNet ensemble, conventional UNet without dropout을 사용함.

 

3. Evaluation of Uncertainty

  • Predictive Entropy(PE)를 uncertainty,의 지표 중에 하나로 볼 수 있음.
    $$
    PE = -\sum_c{\mu_c ~ log{\mu_c}}, c ~  ranges  ~ over ~ classes
    $$
  • PE를 활용하여 올바른 예측값보다 잘못 예측한 결과에 대해 높은 uncertainty를 얻는것이 바람직하다.
  • 그러기 위해서 아래와 같이 몇 가지 지표들을 생각해볼 수 있고, 더 좋은 성능을 위해서는 aleatoric & epistemic uncertainty로 적용하는 것이 좋다.

  • 1) Uncertainty Sensitivity
    2) Uncertainty Specificity
    3) Uncertainty precision
    4) Uncertainty Accuracy

 

 

4. Background

  • Markov Chain Monte Carlo
  • Variational Inference
  • MC-Dropout

 

5. New Loss Function

  • 이번 절에서는 2가지 loss function을 함께 사용하는 multiobjective loss function을 소개할 예정인데, 두 loss function 모두 calibration error를 줄이는 것과 사진1에서 보았던 것처럼 올바른 예측 분포와 틀린 예측 분포의 영역을 최소화하는 것을 목적으로 하고 있다.
  • PE Entropy-based Loss Function : PE에 cross entropy 항을 추가해다고 볼 수 있고, PE와 cross entropy를 minimize하는 방향으로 학습한다.(PE는 uncertainty measure로써 사용된다.)
    $$
    Loss = Cross Entropy + Mean of PEs
    $$

PE Entropy-based Loss Function

  • Expected Calibration Error-based Loss Function : calibration-aware NN에 대한 loss function을 추가했다고 볼 수 있다.
    $$
    Loss = Cross Entropy + ECE
    $$

Expected Calibration Error-based Loss Function

 

6. Experiments

  • Two Moon Dataset
    • 파란색 음영은 올바른 예측, 빨간색 음영은 틀린 예측을 한 entropy distribution(=uncertainty dist.)이다.
    • $TABLE2$ 에서는 $Fig3$ 분포에 대한 지표들을 보여주고 있음.
    • $\mu_1, \mu_2$는 각각 올바른 예측값의 분포와 틀린 예측값의 분포를 Gaussian dist.에 근사한 평균값이고, $Distance$는 두 dist. 사이의 거리이며, 각각의 method를 100번 돌려 얻은 평균값이다.

 

  • 결과 해석
    1. 올바른 예측값의 dist.는 틀린 예측값의 dist.보다 더 적은 uncertainty를 갖는다.
    2. Distance 측면에서 보면, 그냥 일반적인 MC-dropout보다 두 loss function을 적용한 것이 더 큰(좋은) Distance를 갖는다.
      --> 이것은 두 알고리즘이 올바른 예측값에는 낮은 uncertainty를 부여하고, 틀린 예측값에는 높은 uncertainty를 부여한다는 것을 보이고 있다.
    3. MC-Dropout with PE-based loss function 방법론이 가장 적은 두 영역의 교집합을 갖는다.

 

 

  • $Fig4$ 는 올바른 예측값의 분포와 틀린 예측값의 분포간의 uncertainty predictive mean에 대한 차이(거리)를 boxplot으로 나타낸 그림이다.
  • PE-based loss function 케이스가 가장 큰 차이를 보였다.

  • $Fig5$ 는 two moon dataset과 bulb dataset을 대상으로 4가지 알고리즘(Ensemble, original MC-Dropout, MC-Dropout based on PE loss function, MC-Dropout based on ECE loss funtion)에 대한 Uncertainty Accuracy(UA)를 나타낸 그림이며, 3가지의 noise level을 고려한 그림이다.
  • 간단한 fully connected layer 모델을 사용함.
  • PE loss function을 사용한 method가 uncertainty를 더 잘 표현하고 찾아내는 명확한 결과를 볼 수 있음.
  • UAcc는 각 데이터 셋에 대해, aleatoric uncertainty level이 증가함에 따라 점차 감소함을 보여줌.

  • $Fig6$ 에서는 

 

7. Conclusion

  • 위 내용을 summary하는 단락

 


 

내 생각

 

본 논문은 "uncertainty를 loss function으로 사용할 수 있을까?"에 대한 질문에서 시작하여 찾은 논문이다. 저널에 올라간 논문이었기에 나름 내 궁금증을 해결해줄거라 생각했는데, 논문의 퀄리티가 엄청 심플하고, 높은 수준이 아닌 것 같다는 생각이 들었다.
오타도 몇 군데 있었고, 실험도 주장을 뒷받침할만한 큰 증거가 되지 못한 느낌이다.
내가 논문을 쓸 때, 이러한 아쉬운점을 참고해서 작성해야겠다.

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90
반응형