알파고 3종 논문 서문 읽어보기

1. Mastering the game of Go with deep neural networks and tree search

 

"트리 탐색과 딥러닝으로 바둑을 마스터하다"

 

바둑은 거대한 탐색 공간과 바둑판의 이동이나, 국면을 판단하기 어렵기 때문에 인공지능에게는 가장 어려운 과제로 여겨져왔다.

 

여기서 우리는 value network를 사용하여 바둑의 국면을 판단하고, policy network를 이용해 다음 수를 선택하는 새로운 접근법을 소개한다.

 

이러한 deep neural network는 인간 전문가 게임에 의한 지도학습의 새로운 조합에 의해 학습되고 스로 대국한 게임으로 배우는 강화학습에 의해 학습된다.

 

어떠한 역추적 없이(lookahead search) 신경망은 자기 스스로의 수천번의 random simulation에 의한 몬테카를로 트리 탐색 프로그램을 사용하여, SOTA 수준으로 바둑을 둔다.

 

우리는 또한 새로운 탐색 알고리즘으로 몬테카를로 시뮬레이션을 value network와 policy network의 조합으로 수행했다는 것을 소개하고자 한다.

 

이러한 탐색 알고리즘으로 우리의 프로그램인 알파고는 99.8%의 승률로 다른 바둑 프로그램을 이겼으며, 유럽의 인간 챔피언을 5대0으로 완승했다.

 

이것은 컴퓨터가 인간 프로 기사를 바둑 풀게임에서 처음으로 이긴 것으로, 적어도 10년 이상이 걸릴것으로 생각한 위업이다.

 

 

 

2. Mastering the Game of Go without Human Knowledge

 

"인간의 지식 없이 바둑을 마스터하다"

 

인공지능의 오랜 목표는 아무것도 모르는 백지상태(tabula rasa)에서, 도전적인 어떤 분야에서 인간을 뛰어넘는 숙련도를 학습하는 것이다.

 

최근에 알파고가 바둑에서 세계 챔피언을 꺾은 첫번째 프로그램이 되었다. 

 

알파고의 트리 탐색은 딥러닝 인공신경망을 이용해 바둑의 국면을 판단하고, 다음 움직임을 선택했다.

 

이 신경망은 인간 전문가들에 의한 지도학습으로 학습되고, 스스로 대국하면서 강화학습으로 학습된다.

 

여기 우리는 인간의 데이터, 지도, 게임 규칙에 대한 사전 지식 없이 오직 스스로 강화학습에 기반한 알고리즘을 소개하고자 한다.

 

이 신경망은 알파고가 선생님인데, 알파고의 다음 움직임과 알파고의 게임에서 승자를 예측하면서 학습한다.

 

이 신경망은 트리 탐색의 힘을 개선했고, 그 결과로 더 높은 수준의 다음 수를 내놓았고 더 강력한 자기 스스로의 대국을 수행했다. 

 

백지 상태에서 시작한 우리 새로운 프로그램 알파고 제로는 인간을 뛰어넘은 성능을 도달했고, 챔피언을 꺾은 알파고를 100대 0으로 격파했다.

 

 

3. Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

 

"스스로 체스와 일본 장기를 마스터하는 범용 강화학습 알고리즘"

 

체스 게임은 인공지능 역사에서 가장 널리 연구된 주제이다.

 

가장 강력한 프로그램은 정교한 탐색 기법과 도메인에 특화된 전략, 수십년간 인간 전문가에 의해 정제된 손수 만들어진 게임 평가함수의 조합에 기반한다.

 

대조적으로 알파고 제로는 최근에 바둑 게임을 백지 상태에서, 스스로 대국하여 강화학습으로 인간을 뛰어넘은 성능을 보여주었다.

 

이 논문에서 우리는 이러한 접근을 일반화하여, 알파제로라는 알고리즘을 소개한다. 

 

이는 백지 상태에서 다양한 도전적인 분야에서 인간을 뛰어넘는 성능을 달성할 수 있다.

 

랜덤하게 게임을 시작하여, 게임 규칙에 대한 지식 없이도 알파 제로는 바둑처럼 체스와 일본 장기에서 인간을 뛰어넘는 성능을 24시간 안에 달성했으며 각 게임에서 세계 챔피언 인공지능 프로그램에게 승리하였다.

 

 

 

 

 

 

 

 

 

TAGS.

Comments