1. GLUE(General Language Understanding Evaluation) 대량의 데이터를 사전학습하고 원하는 task에 대해 fine-tuning만 하면 사람의 말을 기계가 잘 이해한다는 일반적인 주장이 통용 task를 전부 잘해야한다는 걸 보여줘야하니 다양한 측면을 평가해주는 데이터 군들이 중요하게 다가왔다. 어떤 모델이든 동일한 체계 위에서 공정하게 평가하는 하나의 기준이 필요했다는 것이다. QQP는 질문 2개를 임의로 뽑아 사실상 같은 질문인지 아닌지 파악하는 과제 SST-2는 stanford에서 나온 문장이 부정적인지 긍정적인지 파악하는 과제 CoLA는 문장에 문법적인 오류가 있는지 없는지 파악하는 언어 수용성 과제 STS-B, MRPC는 2개 문장의 유사도를 평가하는 과제 RT..
1. precision과 recall의 문제점 정답문장에 대해 2개의 모델로 예측문장을 얻었다고 해보자. 두번째 모델로 만든 문장의 경우 모든 단어가 정답문장 단어와 매칭이 되는데 순서가 전혀 맞지 않는다는 것이 문제다. 그럼에도 불구하고 precision과 recall은 100% 때로는 언어에서 순서는 매우 중요한데 단어만 맞췄다고 완벽한 번역이라고 볼수있을까? precision과 recall, f-measure는 계산방식으로부터 알 수 있겠지만 오직 부합하는 단어의 수에만 집중하기 때문에 순서정보를 전혀 반영하지 않는다는 것이 문제다. 2. introduction bleu score는 순서를 반영하지 않는다는 precision과 recall의 문제점을 개..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.