끄적거림

[논문 리뷰] Prediction-Oriented Bayesian Active Learning - 3. The shortfalls of BALD 본문

개인 공부 정리/Bayesian

[논문 리뷰] Prediction-Oriented Bayesian Active Learning - 3. The shortfalls of BALD

Signing 2023. 4. 23. 13:58
728x90
반응형

[논문 리뷰] Prediction-Oriented Bayesian Active Learning - 0. Abstract

[논문 리뷰] Prediction-Oriented Bayesian Active Learning - 1. Introduction

[논문 리뷰] Prediction-Oriented Bayesian Active Learning - 2.Background


본 섹션에서는 BALD를 본격적을 까는 섹션이다.

이전 섹션에서부터 BALD는 prediction을 기본으로하는 ML 프레임워크에 적합하지 않다고 했을 뿐 아니라, 이것이 parameter uncertainty와 predictive uncertainty가 다름이 적용되지 않음을 강조하고 있다.

어떤 부분에서 BALD가 아쉬운지, 부족한지를 확인해보겠다.

 

3.1 Focusing on prediction

model parameter는 고정값.

the parameters are only valued insofar as they serve a prediction-oriented goal. 매개 변수는 예측 지향적인 목표에 기여하는 한에서만 가치가 평가됩니다

 

3.2 Not all information is equal

linear model과 같은 모델들은 parameter와 prediction이 밀접한 연관성이 있다.

이것은 parameter uncertainty를 줄이면 predictive uncertainty의 전체적인 감소로 이어진다.

그러나 일반적으로는 두 지표는 좀 더 느슨한 관계이다.

수많은 parameter를 갖는 non-parametic bayesian model과 같은 모델들은 많은 중복이 있다.?

두 지표가 느슨한 관계면, parameter uncertainty는 나머지 input에 대한 predictive uncertainty의 감소와 관련 없이 줄어들 수 있다.

 

3.3 BALD has no notion of an input distribution

BALD는 prediction과 관련 없이 model parameter에 초점을 맞추기 때문에 input dist.를 설명하지 않는다.

 

3.4 Real-world data can exacerbate this problem

A/L은 라벨링하기에 가장 유용한 input을 찾아야 하는데, BALD는 prediction에 그닥 도움이 되지 않는 애매한 데이터를 타게팅 할 수 있는 random setting이기 때문에 좋지 못하다.

그림에서도 알 수 있듯이, pool size가 커짐에 따라 BALD의 predictive accuracy가 더욱더 안좋아짐을 보이고 있다.

pool size가 커지면 더욱 애매한 input이 pool에 포함될 가능성이 높아지고, BALD는 점점 더 안좋은 예측 정확도를 보인다.

 

3.5 Failure can occur without distribution shift

BALD는 input dist.에 대해 관련이 없기 때문에, dist. shift나 dist. change 없이 pool에서 input을 뽑아서 pool size가 증가하면 왜 성능저하로 이어지는지에 대한 이유가 될 수 있다.

 

3.6 Filtering heuristics are not a general solution

BALD의 이런 문제를 해결하기 위해 보통 그런 모호한 데이터를 제거하고 BALD를 사용하는데, 이러한 filtering은 그닥 좋은 방법이 아니다.

현실적이지 못할 뿐더러 더 안좋은 결과를 초래할 수 있다.

 


위 단점들의 가장 큰 주제는 BALD가 prediction uncertainty와 input dist.를 고려하지 않는다는 점인것 같다.

 

 

 

 

 

 

728x90
반응형
Comments