transformers are sample efficient world models

2022/09/01

 

1. abstract

 

딥러닝의 강화학습 agent는 sampling을 비효율적으로 하기로 악명높아서 현실세계 문제에 적용하는데 상당히 제한적이다.

 

최근에 많은 모델 기반의 방법들이 이러한 이슈를 다루기 위해 디자인되어 있고 세상의 모델을 상상하면서 학습하는 방법이 가장 유망한 방법중의 하나이다.

 

그러나 시뮬레이션된 환경에 가상적으로 제한없이 상호작용하는 것은 매력적으로 보이지만, 세상의 모델은 오랜 시간에 걸쳐서 정확해진다.

 

sequence modeling에서 transformer의 성공에 동기부여를 받아 우리는 IRIS를 소개한다.

 

이는 데이터 효율적인 agent이고 discrete autoencoder, autoregressive transformer로 구성된 세상의 모델에서 학습을 한다.

 

Atari 100k benchmark에서 게임플레이한 2시간 만에 IRIS는 인간의 평균 normalized score인 1.046점을 얻었고, 26게임 중에 10번 인간을 뛰어넘었다.

 

우리의 접근법은 lookahead search 없이 새로운 SOTA 방법으로 확립했고 심지어 MuZero를 뛰어넘었다. 

 

transformer와 sampling을 효율적으로 하는 강화학습을 위한 world model을 육성하기 위해 우리는 code를 깃허브에 공개한다. 

 

https://github.com/eloialonso/iris

 

GitHub - eloialonso/iris: Transformers are Sample Efficient World Models

Transformers are Sample Efficient World Models. Contribute to eloialonso/iris development by creating an account on GitHub.

github.com

 

 

https://paperswithcode.com/paper/transformers-are-sample-efficient-world

 

Papers with Code - Transformers are Sample Efficient World Models

Implemented in one code library.

paperswithcode.com

 

TAGS.

Comments