비전공자도 이해할 수 있는 AI지식8 -알파고는 어떻게 학습했을까?-

1. 정책망(policy network), 어디에 돌을 놓아야하는가? 정책망은 사람이 만든 기보를 이용하여 학습한다. 학습에 사용한 데이터는 KGS라는 바둑 사이트에서 가져왔으며 6단 이상의 고수의 기보만 사용했다고 한다. 얼핏 생각하면 9단 기사의 데이터를 사용하면 가장 바람직하겠지만, 그러기에는 데이터의 수가 부족했다. 알파고 개발자는 데이터의 수가 충분하면서도 좋은 기보 수준을 6단으로 정했던 것이다. 각 데이터는 바둑판의 상태와 해당 상태에서 실제로 다음번 바둑알을 둔 곳의 위치를 함께 쌍으로 구성되었고 (그러니까 (바둑판의 상태,다음번에 바둑알을 둔 위치)로 데이터가 주어진다는 말인듯) 정책망은 약 16만회의 게임에서 총 3000만 수를 가져와 학습했다. 학습을 마친 정책망은 바둑판의 현재 상태..