끄적거림

[논문 리뷰] Learning Transferable Graph Exploration - 0.Abstract 본문

개인 공부 정리/강화학습

[논문 리뷰] Learning Transferable Graph Exploration - 0.Abstract

Signing 2021. 3. 11. 15:39
728x90
반응형

[논문 리뷰] Learning Transferable Graph Exploration - 0.Abstract

[논문 리뷰] Learning Transferable Graph Exploration - 1.Introduction

[논문 리뷰] Learning Transferable Graph Exploration - 2.Problem Formulation

[논문 리뷰] Learning Transferable Graph Exploration - 3.Model

[논문 리뷰] Learning Transferable Graph Exploration - 4.Experiments - (1)Synthetic 2D Maze Exploration

[논문 리뷰] Learning Transferable Graph Exploration - 4.Experiments - (2) Generating Inputs for Testing Domain Specific Programs

[논문 리뷰] Learning Transferable Graph Exploration - 4.Experiments - (3)App Testing

[논문 리뷰] Learning Transferable Graph Exploration - 5.Related work & 6.Conclusion


 

 

 

논문: Learning Transferable Graph Exploration.pdf

 

수업의 일부인 논문리뷰를 할 겸, 강화학습도 공부할겸 해서 본 논문을 가져와보았다.

이 논문은 2019년 NIPS에 등재된 논문으로 Google Brain, DeepMind, 워싱턴대학이 공동으로 쓴 논문이다.

굉장한 파급력이 있는 논문은 아닌 것 같지만(paperwithcode 사이트에서 보면,,), 그래도 수업과 병행했을 때 내 나름대로 도움이 될 것 같아 본 논문에 대해 리뷰해보고자 한다.

 

강화학습과 Graph Network를 처음 공부하다보니 많이 부족할 수 있으니 이 글을 보시는 분들은 참고용으로만 읽어주셨으면 좋겠다.(더 좋은 해석과 좋은 지적은 환영입니다.)

 


Abstract는 짤막하기 때문에 직독직해 느낌으로다가 접근해보겠다.

정확한 번역이라기 보단 의역에 가까우니 참고하시길!

 

 

This paper considers the problem of efficient exploration of unseen environments, a key challenge in AI.

본 논문은 AI의 핵심인 경험해보지 못한 미지의 환경에서의 효율적인 탐색에 대한 문제를 다루고 있다.

 

We propose a 'learning to explore' framework where we learn a policy from a distribution of environments.

본 논문에서는 주변 환경의 분포로부터 policy를 학습할 때, "탐험하기 위한 학습(learning to explore)" 프레임워크를 제안한다.

 

At test time, presented with an unseen environment from the same distribution, the policy aims to generalize the exploration strategy to visit the maximum number of unique states in a limited number of steps.

동일한 분포를 갖는 학습하지 못한 환경에서의 test를 진행할때, policy는 제한된 몇개의 step 안에서 고유한 state의 수를 최대로 방문하려는 탐험 전략에 초점을 둔다.

 

We particularly focus on environments with graph-structured state-spaces that are encountered in many important real-world applications like software testing and map building.

특히 소프트웨어 테스트 및 지도 구축과 같은 많은 중요한 실제 애플리케이션에서 접하는 graph 구조의 state 공간이 있는 환경에 중점을 두었다.

 

We formulate this task as a reinforcement learning problem where the ‘exploration’ agent is rewarded for transitioning to previously unseen environment states and employ a graph-structured memory to encode the agent’s past trajectory.

이 작업을 '탐색' agent가 이전에 학습하지 않았던 환경 state로 전환하여 보상을 받고 graph 구조의 기억을 사용하여 agent의 과거 궤적을 인코딩하는 강화 학습 문제로 공식화했다.

 

Experimental results demonstrate that our approach is extremely effective for exploration of spatial maps;

and when applied on the challenging problems of coverage-guided software-testing of domain-specific programs and real-world mobile applications,

it outperforms methods that have been hand-engineered by human experts.

실험 결과는 위의 접근 방식이 공간 탐색에 매우 효과적이라는 것을 입증하며,

도메인별 특화된 프로그램과 실제 모바일 애플리케이션의 어느정도 커버가 가능한지에 대한 소프트웨어 테스트의 어려운 문제에 적용했을 때,

그것은 실제 전문가가 손으로 설계한 방법을 능가한다.

 

 


 

결과적으로 이 논문에서 말하고자 하는 것은

  • 학습해보지 못한 환경에서 효율적인 탐색을 하고자하는 것이 목적이며
  • 사람이 직접 탐험을 설계하는 것보다 우수한 성능을 보였다

라고 밝히고 있다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90
반응형
Comments