Loading...

알파고 3종 논문 서문 읽어보기

1. Mastering the game of Go with deep neural networks and tree search "트리 탐색과 딥러닝으로 바둑을 마스터하다" 바둑은 거대한 탐색 공간과 바둑판의 이동이나, 국면을 판단하기 어렵기 때문에 인공지능에게는 가장 어려운 과제로 여겨져왔다. 여기서 우리는 value network를 사용하여 바둑의 국면을 판단하고, policy network를 이용해 다음 수를 선택하는 새로운 접근법을 소개한다. 이러한 deep neural network는 인간 전문가 게임에 의한 지도학습의 새로운 조합에 의해 학습되고 스스로 대국한 게임으로 배우는 강화학습에 의해 학습된다. 어떠한 역추적 없이(lookahead search) 신경망은 자기 스스로의 수천번의 random..

2022. 10. 6. 01:10

비전공자도 이해할 수 있는 AI지식10 -바둑의 신이 된 알파고-

1. 알파고 제로, 더욱 바둑 실력을 갈고 닦다 알파고와의 대국은 2016년 당시 TV에서 생중계할 정도로 유명한 이벤트였고 알파고는 우리에게 깊은 인상을 남겼다 알파고는 이세돌을 꺾고 최고의 자리를 차지하였지만, 구글 딥마인드는 계속해서 알파고를 개선해나갔고 알파고 제로(AlphaGo Zero)가 등장하였다 기존 알파고는 학습을 수행할 인간 바둑기사의 기보가 필요하며 이를 습득해 실력을 키웠다 그러나 알파고 제로는 처음부터 자신과의 대국을 통해 실력을 쌓아나갔다. 완전히 무에서 시작한다고 하여 알파고 제로라는 이름을 부여했다. 알파고 제로는 매일 100만 대국을 휴식 없이 치를 수 있었다. 인간이라면 8살부터 80살까지 72년간 매일 다섯 차례씩 평생 대국을 해야 비로소 13만 대국을 둘 수 있는데, ..

2022. 10. 4. 23:44

비전공자도 이해할 수 있는 AI지식9 -알파고는 왜 인간의 신의 한수를 허용했는가?-

1. 몬테카를로 트리 탐색, 알파고가 생각하는 방법 이제 알파고가 학습한 것을 바탕으로 어떤 과정을 거쳐 착수를 하는지 알아보자. 이때는 앞서 설명했던 몬테카를로 트리 탐색을 활용한다. 몬테카를로 방법은 무작위로 샘플링하여 정답을 찾는 방식이다. 5000만 국민의 선거 결과를 알기 위해 전수조사하는 대신 무작위로 5만 명 정도만 조사해도 비슷한 결과를 낼 수 있는 것과 마찬가지다. 바둑의 경우로 다시 한번 생각해보자. 1) 바둑은 탐색해야하는 게임 트리가 엄청나게 크다. 2) 게임 트리를 전부 탐색하는 것은 불가능하다. 3) 일부만 무작위로 샘플링하여 탐색해도 비슷한 결과를 낼 수 있다. 이런 방식으로 몬테카를로 방법을 바둑 인공지능에 도입하자 실력이 급상승하기 시작했다. 그러나 몬테카를로 방법에도 엄연..

2022. 10. 1. 02:26

비전공자도 이해할 수 있는 AI지식8 -알파고는 어떻게 학습했을까?-

1. 정책망(policy network), 어디에 돌을 놓아야하는가? 정책망은 사람이 만든 기보를 이용하여 학습한다. 학습에 사용한 데이터는 KGS라는 바둑 사이트에서 가져왔으며 6단 이상의 고수의 기보만 사용했다고 한다. 얼핏 생각하면 9단 기사의 데이터를 사용하면 가장 바람직하겠지만, 그러기에는 데이터의 수가 부족했다. 알파고 개발자는 데이터의 수가 충분하면서도 좋은 기보 수준을 6단으로 정했던 것이다. 각 데이터는 바둑판의 상태와 해당 상태에서 실제로 다음번 바둑알을 둔 곳의 위치를 함께 쌍으로 구성되었고 (그러니까 (바둑판의 상태,다음번에 바둑알을 둔 위치)로 데이터가 주어진다는 말인듯) 정책망은 약 16만회의 게임에서 총 3000만 수를 가져와 학습했다. 학습을 마친 정책망은 바둑판의 현재 상태..

2022. 9. 30. 01:17

비전공자도 이해할 수 있는 AI지식7 -바둑에 도전한 인공지능-

1. 인공지능, 바둑을 넘보다 바둑도 체스처럼 정석이 어느정도 있을테니, 적절히 활용하여 계산해야하는 경우의 수를 줄여나가면 어떨까? 바둑은 그렇게 한다해도 체스처럼 계산을 해낼 수 없습니다. 계산해야하는 게임 트리가 지나치게 크기 때문이다. 체스의 게임 트리 크기만해도 우주의 원자 수보다 많은데, 바둑은 이보다도 훨씬 크다. 딥 블루가 승리한 직후 1997년 천체물리학자이자 바둑 애호가인 피에트 헛은 "바둑에서 컴퓨터가 사람을 이기려면 100년은 걸릴 것이다. 어쩌면 더 걸릴 수도 있다"라고 언급했다. 가로세로 19줄, 총 361개의 점으로 이루어진 바둑판에서 가능한 수를 계산해보는 건 얼핏 상상만 해도 불가능해 보인다. 고등학생 때 배운 순열을 이용해 단순하게 계산해볼까? 361개의 점에 순서대로 무..

2022. 9. 27. 02:59

비전공자도 이해할 수 있는 AI 지식6 -인간을 능가하는 기계의 등장-

1. 딥블루는 어떻게 세계 체스 챔피언이 되었는가 1997년 인간과 컴퓨터의 자존심을 건 체스 대결이 펼쳐졌다. 가리 카스파로프는 1984년 만 20세 최연소 세계 체스 챔피언으로 등극한 이해 줄곧 세계 1위를 유지하였고 적어도 체스로 그를 이길 수 있었던 인간은 존재하지 않았다 카스파로프를 상대할 컴퓨터 대표 딥 블루(Deep blue)는 IBM의 슈퍼컴퓨터인데 이전에도 몇 차례 체스 시합에 도전했지만 번번이 무릎을 꿇었다. 바로 직전 1996년에도 안타깝게 4:2로 패했다. 이후 딥블루는 보다 정교한 체스머신이 되어, 내부에서도 디퍼 블루라는 애칭으로 부를 정도로 더욱 강력해져서 돌아왔다. 그리고 이날 대회에서 딥블루가 마침내 카스파로프를 꺾고 체스 세계 챔피언에 등극하였다. 컴퓨터가 정규 시합에서 ..