카테고리 없음
[논문 리뷰] An Uncertainty-aware Loss Function for Training Neural Networks with Calibrated Predictions
Signing
2023. 3. 20. 21:07
728x90
반응형
https://arxiv.org/pdf/2110.03260.pdf
간단하게 리뷰할 예정!
0. Abstract
- 이 연구에서는 Cross-Entropy와 Expected Calibration Error(ECE) 및 Predictive Entropy(PE)를 결합한 두 가지 새로운 손실 함수를 제안함.
- 올바른 예측과 부정확한 예측의 불확실성 추정 분포 간의 중첩을 최소화하면서도 모델의 전반적인 성능을 희생하지 않는 새로운 하이브리드 손실 함수의 큰 영향을 확인
- 이 연구는 불확실성 양자화를 통해 모델의 예측 결과를 더 신뢰할 수 있도록 개선하는 방법을 제안하고, 새로운 손실 함수가 이를 달성하는 데 효과적임을 실험적으로 입증
1. Introduction
- Uncertainty가 얼머나 중요한지를 언급.
- 대표적인 Uncertainty 측정 방법인 MC dropout, 베이지안 Variational Inference 등을 언급함.
- 위 사진1은 올바른 예측을 했을 때 낮은 Uncertainty 분포를, 틀린 예측을 했을 때 높은 Uncertainty 분포를 보임을 나타내고 있다.
- 본 논문은 이러한 두 분포의 교집합적인 부분을 최소화하는 것을 목표로 했다.
- 결과적으로 잠재적으로 부정확한(위험한) 예측은 안전하게 발견하고 uncertainty를 estimate하는 동안 조심스럽게 처리하는 것이 목표인 것이다.
2. Literature Review
- Uncertainty quantification이 왜 필요한지, 왜 중요한지를 언급함.
- epistemic & aleatoric 두 종류의 uncertainty가 있음을 언급함. -> [논문 리뷰] What uncertainties do we need in Bayesian deep learning for computer vision? 논문 위주의 내용
- 의학 application 중에서 장기기관 인식에 대한 논문 언급
- image tagging & anatomical structure classification 접근방법을 사용
- superpixel classification 방법론을 사용
- "An exploration of uncertainty information for segmentation quality assessment" 논문에서는 segmentation model에 대해 uncertainty measuring을 진행할 때, MC dropout UNet, UNet ensemble, conventional UNet without dropout을 사용함.
3. Evaluation of Uncertainty
- Predictive Entropy(PE)를 uncertainty,의 지표 중에 하나로 볼 수 있음.
$$
PE = -\sum_c{\mu_c ~ log{\mu_c}}, c ~ ranges ~ over ~ classes
$$ - PE를 활용하여 올바른 예측값보다 잘못 예측한 결과에 대해 높은 uncertainty를 얻는것이 바람직하다.
- 그러기 위해서 아래와 같이 몇 가지 지표들을 생각해볼 수 있고, 더 좋은 성능을 위해서는 aleatoric & epistemic uncertainty로 적용하는 것이 좋다.
- 1) Uncertainty Sensitivity
2) Uncertainty Specificity
3) Uncertainty precision
4) Uncertainty Accuracy
4. Background
- Markov Chain Monte Carlo
- Variational Inference
- MC-Dropout
5. New Loss Function
- 이번 절에서는 2가지 loss function을 함께 사용하는 multiobjective loss function을 소개할 예정인데, 두 loss function 모두 calibration error를 줄이는 것과 사진1에서 보았던 것처럼 올바른 예측 분포와 틀린 예측 분포의 영역을 최소화하는 것을 목적으로 하고 있다.
- PE Entropy-based Loss Function : PE에 cross entropy 항을 추가해다고 볼 수 있고, PE와 cross entropy를 minimize하는 방향으로 학습한다.(PE는 uncertainty measure로써 사용된다.)
$$
Loss = Cross Entropy + Mean of PEs
$$
- Expected Calibration Error-based Loss Function : calibration-aware NN에 대한 loss function을 추가했다고 볼 수 있다.
$$
Loss = Cross Entropy + ECE
$$
6. Experiments
- Two Moon Dataset
- 파란색 음영은 올바른 예측, 빨간색 음영은 틀린 예측을 한 entropy distribution(=uncertainty dist.)이다.
- $TABLE2$ 에서는 $Fig3$ 분포에 대한 지표들을 보여주고 있음.
- $\mu_1, \mu_2$는 각각 올바른 예측값의 분포와 틀린 예측값의 분포를 Gaussian dist.에 근사한 평균값이고, $Distance$는 두 dist. 사이의 거리이며, 각각의 method를 100번 돌려 얻은 평균값이다.
- 결과 해석
- 올바른 예측값의 dist.는 틀린 예측값의 dist.보다 더 적은 uncertainty를 갖는다.
- Distance 측면에서 보면, 그냥 일반적인 MC-dropout보다 두 loss function을 적용한 것이 더 큰(좋은) Distance를 갖는다.
--> 이것은 두 알고리즘이 올바른 예측값에는 낮은 uncertainty를 부여하고, 틀린 예측값에는 높은 uncertainty를 부여한다는 것을 보이고 있다. - MC-Dropout with PE-based loss function 방법론이 가장 적은 두 영역의 교집합을 갖는다.
- $Fig4$ 는 올바른 예측값의 분포와 틀린 예측값의 분포간의 uncertainty predictive mean에 대한 차이(거리)를 boxplot으로 나타낸 그림이다.
- PE-based loss function 케이스가 가장 큰 차이를 보였다.
- $Fig5$ 는 two moon dataset과 bulb dataset을 대상으로 4가지 알고리즘(Ensemble, original MC-Dropout, MC-Dropout based on PE loss function, MC-Dropout based on ECE loss funtion)에 대한 Uncertainty Accuracy(UA)를 나타낸 그림이며, 3가지의 noise level을 고려한 그림이다.
- 간단한 fully connected layer 모델을 사용함.
- PE loss function을 사용한 method가 uncertainty를 더 잘 표현하고 찾아내는 명확한 결과를 볼 수 있음.
- UAcc는 각 데이터 셋에 대해, aleatoric uncertainty level이 증가함에 따라 점차 감소함을 보여줌.
- $Fig6$ 에서는
7. Conclusion
- 위 내용을 summary하는 단락
내 생각
본 논문은 "uncertainty를 loss function으로 사용할 수 있을까?"에 대한 질문에서 시작하여 찾은 논문이다. 저널에 올라간 논문이었기에 나름 내 궁금증을 해결해줄거라 생각했는데, 논문의 퀄리티가 엄청 심플하고, 높은 수준이 아닌 것 같다는 생각이 들었다.
오타도 몇 군데 있었고, 실험도 주장을 뒷받침할만한 큰 증거가 되지 못한 느낌이다.
내가 논문을 쓸 때, 이러한 아쉬운점을 참고해서 작성해야겠다.
728x90
반응형