끄적거림

[논문 리뷰] Efficacy of Bayesian Neural Networks in Active Learning - 0.Abstract ~ 2.Related Work 본문

개인 공부 정리/Bayesian

[논문 리뷰] Efficacy of Bayesian Neural Networks in Active Learning - 0.Abstract ~ 2.Related Work

Signing 2021. 9. 23. 14:39
728x90
반응형

https://openaccess.thecvf.com/content/CVPR2021W/LLID/papers/Rakesh_Efficacy_of_Bayesian_Neural_Networks_in_Active_Learning_CVPRW_2021_paper.pdf


본 논문은 2021 CVF(CVPR) 투고된 논문으로 Interdigital AI Lab이라는 곳에서 작성한 논문이다.

베이지안과 관련한 최신 논문을 찾으려고 하다보니 발견한 논문이다.

일단 닥치는대로 읽고 리뷰한 것이니 참고용으로 봐주길 바란다.

 

 

 

0. Abstract

Obtaining labeled data for machine learning tasks can be prohibitively expensive.

ML에서 라벨링된 데이터를 얻는 것은 쉽지 않다.

 

Active learning mitigates this issue by exploring the unlabeled data space and prioritizing the selection of data that can best improve the model performance.

Active Learning은 라벨링되지 않은 데이터 공간을 탐색하고, 모델 성능을 최대한 끌어올릴 수 있는 데이터를 우선 선택하도록 함으로써 이 문제를 해결하려한다.

 

A common approach to active learning is to pick a small sample of data for which the model is most uncertain.

active learning의 일반적인 방법은 모델이 가장 불확실하다고 판단되는 적은 데이터를 고르는 것이다.

 

In this paper, we explore the efficacy of Bayesian neural networks for active learning, which naturally models uncertainty by learning distribution over the weights of neural networks.

본 논문에서는, 뉴럴넷의 weight distribution을 학습하면서 모델 불확실성을 구하는 Bayesian Neural Network(이하 BNN)의 효율성을 살펴본다.

 

By performing a comprehensive set of experiments, we show that Bayesian neural networks are more efficient than ensemble based techniques in capturing uncertainty.

많은 실험을 수행함으로써, 저자들은 BNN이 앙상블 기법 기반의 불확실성을 구하는 방법론보다 더 효과적임을 밝혔다. 

 

Our findings also reveal some key drawbacks of the ensemble techniques, which was recently shown to be more effective than Monte Carlo dropouts.

이 발견은 MC-dropout보다 성능이 좋다고 알려졌던 앙상블 기법의 단점을 발견했다.

 

 

 

 

1. Introduction

1.1

실제로 ML이나 DL을 하려고 하면, 제대로 된 데이터(labeled data)를 얻기 힘들다.

특히, medical쪽이나 bio쪽에서의 이미지 데이터는 라벨링하기 쉽지 않고 매우 어려운 작업에 속한다.

 

1.2

Active Learning(이하 AL)은 이런 문제를 해결하는 것에 목표를 두고 있다.

보통은 unlabeled data에서 모델의 성능을 이끌어 낼 수 있는 데이터를 샘플링한다.

 

1.3

이때 필요한 게 Acquisition function(이하 AF)라는 것인데, 이것은 unlabeled data 중에서 중요도에 따라 점수를 부여하는 함수이다.

 

1.4

한 편, BNN은 모델 불확실성을 구하는데 사용되는데, 주어진 데이터에 대해 weight의 분포를 구함으로써 input을 넣으면 output의 분산을 구할 수 있고, 이 분산을 모델 불확실성으로 활용한다.

 

1.5

하지만, 이 BNN은 계산하기가 쉽지 않아서 가장 잘 알려진 Dropout을 이용하여 BNN에 근사시키는 방법을 사용한다.

 

1.6

이 밖에도 앙상블 기법을 이용하여 불확실성을 구할수도 있는데 아래의 논문에서는 앙상블 기법이 MC-dropout을 이용한 기법보다 더 우수하다고 알려져 있다.

https://openaccess.thecvf.com/content_cvpr_2018/papers/Beluch_The_Power_of_CVPR_2018_paper.pdf

하지만, Dropout을 이용한 NN은 spike & slap이라는 분포에서만 작동하는 특별한 case인 것이다.

이것과 정반대로, 실제 BNN은 weight의 prior와 posterior 분포가 더 광범위하다.

 

1.7

따라서, 본 논문에서는 아래의 논문에서 제안되었던 scaled normal prior를 기반으로 한 BNN을 사용함으로써 앙상블 기법과 MC-dropout이 active learning에서의 BNN와 비교했을 때의 효율성에 대해 다시 살펴보고자 한다.

https://arxiv.org/pdf/1705.08665.pdf 

 

 

여기서, scald normal prior는 spike & slab 분포의 연속형 버전의 분포이고, dropout의 일종이라고 보면 된다.

 

1.8

본 논문은 여러 데이터 셋(classification, regression)에서 BNN기반 scald normal prior는 앙상블과 MC-dropout보다 더 좋다.

 

1.9

AL을 하기 위해 두 가지 모델 학습 세팅을 했다.

  1. (continual training)학습 시, 이전 round에서의 model의 상태를 재사용하고, 새로운 데이터를 append하여 재학습
  2. model parameter을 reset하여 처음부터 시작함.

그 결과, classification task에서 continual training을 할 때 accuracy 측면에서 BNN이 앙상블 보다 더 좋은 성능을 내었다.

 

1.10

또한, uncertainty 측면에서도 BNN이 앙상블보다 좋았다.

+ 앙상블은 5개의 모델로 앙상블하는 것이 AL에서 가장 성능이 좋았다고 한다.

 

1.11

fully connected dense layers with ReLU non-linearity를 사용하였을 때, 불확실성을 구하는 것에 대해 연산적 이점도 있다.

 

1.12

한 번의 forward pass로 기존의 uncertainty estimate 방법론과 비슷하게 성능을 내였다.

 

 

 

2. Related Work

2.1

AL은 SVM과 같은 ML에서 주로 사용되곤 했는데 최근엔  DL에서도 쓰임.

AL은 계산용이성과 쉬운 적용성 덕분에 uncertainty 기반의 sampling 기법이 선호된다.

+ BNN과 앙상블 두 개를 사용하여 uncertainty를 모두 구할 수 있다.

 

2.2

uncertainty는 unlabeled data를 학습할 때 주로 쓰인다.

 

2.3

여러 선행연구에서 AL에서의 BNN을 다루었지만, 몇 가지 허점들이 있었다.

  • 실험할 때 dense 혹은 cnn등과 같이 매우 제한적인 모델에 한하여 실험되었었다.
  • evaluation도 MNIST와 같은 제한적인 데이터셋을 사용했다
  • BNN과의 비교가 없었다.
  • BNN을 사용하기로 했지만, MC-dropout로 근사한 BNN을 사용하였다.

 

 

 

 

 

 

728x90
반응형
Comments