문장 생성의 성능평가 지표1 - precision and recall, F-score

1. precision and recall translation 후에 생성된 문장이 정확한지 평가할 필요가 있다. 기본적으로 단어를 생성하는 방법은 target 각 단어별 실제 정답과의 softmax loss가 최소화되게 만든다. test data에 대해서도 예측된 단어와 정답인 단어의 softmax loss로 분류 정확도를 계산한다. 이런 논리에 기반하여 정답문장과 예측문장사이 각 단어별 matching count로 정확도를 평가하는 방법을 생각할 수 있다. I love you라는 정답문장을 출력해야하는데 oh I love you를 출력했다고한다면 각 matching count=0이니까 정확도는 0%이다. 그런데 크게 떨어지는 번역품질이라고 보기 어렵다 나쁘지 않은 번역.. 그러니까 0%라고 보기 어렵..