Loading...
2024. 4. 24. 23:33

문장 생성의 성능평가 지표2 - bleu score

1. precision과 recall의 문제점 정답문장에 대해 2개의 모델로 예측문장을 얻었다고 해보자.   두번째 모델로 만든 문장의 경우 모든 단어가 정답문장 단어와 매칭이 되는데 순서가 전혀 맞지 않는다는 것이 문제다.  그럼에도 불구하고 precision과 recall은 100% 때로는 언어에서 순서는 매우 중요한데 단어만 맞췄다고 완벽한 번역이라고 볼수있을까? precision과 recall, f-measure는 계산방식으로부터 알 수 있겠지만  오직 부합하는 단어의 수에만 집중하기 때문에 순서정보를 전혀 반영하지 않는다는 것이 문제다.  2. introduction  bleu score는 순서를 반영하지 않는다는 precision과 recall의 문제점을 개..

2024. 3. 2. 01:32

Machine reading comprehension metric 종류

모든 모델은 만들고나서 성능을 정확하게 평가하는 것이 중요함 1. exact match question에 대한 model이 prediction하여 내놓은 answer과 실제 dataset의 answer로 주어진 ground truth를 character level에서 비교하여 모든 character이 정확하게 일치할경우 1점을 주고 단 하나라도 일치하지 않으면 0점을 줌 모든 sample에 대해서 exact match score를 계산하여 정확히 일치한, 1점인 비율을 계산한 값이 exact match 예를 들어 prediction이 'for 5 days'와 ground truth '5 days'를 비교해보면 for이라는 글자가 일치하지 않으니 EM score=0 2. precision predictio..