greedy decoding(greedy search)은 왜 최적이 아닐까?
1. greedy decoding 일반적으로 행하던 decoding 방법이다. 매 time step마다 계산된 확률분포중 가장 확률이 높은 단어를 하나씩 선택한다. sequence 전체적으로 보는것보다 당장 현재 step에서 가장 확률이 높은 최적 단어를 뽑고자 하는 것이다. 순간순간에는 최적이지만 전체로 볼때는 최적이 아니라는 greedy algorithm에서 따온거겠지? 정답은 he hit me with a pie인데 he, he hit 생성하고 다음 단어 생성하는데 최적인 단어는 a라고 생각한거지.. 그러면 이제 이 순간 다음부터는 뭐가 나오든 최종 결과는 무조건 잘못된거임 2. 이상적인 번역이란 이상적으로 input sequence x가 주어질 때 그것에 대한 번역인 translation y를 찾..