1. 정책망(policy network), 어디에 돌을 놓아야하는가? 정책망은 사람이 만든 기보를 이용하여 학습한다. 학습에 사용한 데이터는 KGS라는 바둑 사이트에서 가져왔으며 6단 이상의 고수의 기보만 사용했다고 한다. 얼핏 생각하면 9단 기사의 데이터를 사용하면 가장 바람직하겠지만, 그러기에는 데이터의 수가 부족했다. 알파고 개발자는 데이터의 수가 충분하면서도 좋은 기보 수준을 6단으로 정했던 것이다. 각 데이터는 바둑판의 상태와 해당 상태에서 실제로 다음번 바둑알을 둔 곳의 위치를 함께 쌍으로 구성되었고 (그러니까 (바둑판의 상태,다음번에 바둑알을 둔 위치)로 데이터가 주어진다는 말인듯) 정책망은 약 16만회의 게임에서 총 3000만 수를 가져와 학습했다. 학습을 마친 정책망은 바둑판의 현재 상태..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.