length normalization을 이용한 beam search의 종료조건

1. beam search의 종료조건 greedy decoding은 가 생성되면 종료했다. beam search도 그런가? 여러가지 hypothesis를 고려하기때문에 가 각 hypothesis마다 다르게 생성된다는 것이 문제다. 가 생성된 hypothesis는 더 이상 단어를 생성할 필요가 없으니 물론 고려할 필요는 없다. 중간에 고려대상 hypothesis가 를 만들경우 그 hypothesis는 임시공간에 저장해놓고 최종후보대상에 올려놓는 것이다. 그 경우 다음 step에서 몇개를 고려해야하느냐가 문제다. 1개를 선택했으니 k-1개만 고려할까? 아니 beam search의 취지에 맞게 계속 k개를 고려할까? 사람마다 다르다.. 적절하게 고려하는것이 중요하다 어떨때 종료할까? 첫번째로 time step..