GLUE 벤치마크(benchmark)는 왜 필요한가?

1. GLUE(General Language Understanding Evaluation)

 

대량의 데이터를 사전학습하고 원하는 task에 대해 fine-tuning만 하면 사람의 말을 기계가 잘 이해한다는 일반적인 주장이 통용

 

task를 전부 잘해야한다는 걸 보여줘야하니 다양한 측면을 평가해주는 데이터 군들이 중요하게 다가왔다.

 

어떤 모델이든 동일한 체계 위에서 공정하게 평가하는 하나의 기준이 필요했다는 것이다.

 

QQP는 질문 2개를 임의로 뽑아 사실상 같은 질문인지 아닌지 파악하는 과제

 

SST-2는 stanford에서 나온 문장이 부정적인지 긍정적인지 파악하는 과제

 

CoLA는 문장에 문법적인 오류가 있는지 없는지 파악하는 언어 수용성 과제

 

STS-B, MRPC는 2개 문장의 유사도를 평가하는 과제

 

RTE는 자연어에서 포함관계(entailment)를 추론하는 과제

 

7가지 기본 task에 질의응답 과제인 SQuAD 1.1, SQuAD 2.0 결과 등도 보여주면서

 

GLUE는 언어 모델이 사람의 말을 얼마나 잘 이해하는지 평가하는 공통적인 체계로 자리잡았다.

 

BERT보다 효과적인건 어떻게 학습되고 어떤 아키텍처를 가져야하는지 알아낼 수 있는 토대를 마련해주었다.

 

 

 

GLUE는 BERT보다 뛰어난 ALBERT,ELECTRA등이 등장하는 계기가 되었다.

 

GLUE도 당연히 발전하여 BERT보다 더 많은 평가를 하긴 했지만 ELECTRA, ALBERT 등은 모든 면에서 성능들이 뛰어났다

 

GLUE라는 벤치마크(benchmark)의 존재는 현재 trend인 model을 더욱 발전시키기 위한 토대를 마련해주는 하나의 도구

 

2. 자연어 생성 과제

 

이제 자연어 기계학습 알고리즘은 사람의 말을 이해해야할 뿐만 아니라 자연어 생성도 잘해야했다.

 

이런 자연어 생성 모델(generative model)을 평가하기 위해 GLUE는 여전히 활용되었다.

 

자연어 생성모델 T5와 BART 등장

 

 

자연어 생성모델인 T5와 BART는 language model로 사전학습시키고 생성 task에 fine-tuning시키면 여전히 효과적이라는 것을 보여주었다.

 

 

3. BART

 

사전학습으로 language model, masked language model을 하였다.

 

그런데 위의 그림을 보면 알겠지만 encoder input으로 masked sequence를 주고 여기서 이해한 정보를 바탕으로 decoder가 그것을 복원하게 만들었다.

 

사실 자연어를 생성하는 것은 근본적으로 decoder가 encoder보다 더 잘한다.

 

왜냐하면 decoder가 자연어를 예측하는 task를 수행하거든

 

이런 BART 생성모델의 등장은 decoder도 사전학습의 영역에 포함시켰다.

 

GLUE가 여전히 생성모델도 성능을 평가하는데 사용되었다.

 

BART는 생성 모델임에도 다른 모델에 비해 언어 이해력이 절대 부족하지 않다는 것을 보여주었다

 

 

 

 

4. 다국어 벤치마크 등장

 

세상에는 영어, 프랑스어, 중국어, 인도어 등 정말 많은 언어들이 존재한다.

 

이들 언어는 제각각 특별한 특징을 가진다.

 

그동안 NLP연구는 영어에서 잘되는 접근법을 다른 언어에도 적용해보면서 효과적이면 비슷한 접근법들이 따라오고

 

그렇지 않으면 개선하는 방식으로 이루어졌다.

 

그러나 영어로만 이루어진 GLUE는 사실 영어 말고 다른 언어에 어떻게 모델링을 해야 효과적인지 알려준다고 보기 어렵다

 

GLUE가 언어 모델의 발전을 이끌었던 것에 영감을 받아 다양한 언어에 대한 벤치마크를 만들기 시작했다.

 

 

 

5. 한국어 벤치마크 KLUE(Korean language understanding evaluation)

 

GLUE를 참고로하여 이런 자연어 task들이 평가 과제로 있어야 한국어를 잘 이해한다고 증명할 수 있을 법한 과제들로 선정 중

 

 

 

개체명 인식은 해당 text가 사람이름인지 기관이름인지 수량인지 인식하는 task

 

POS tagging은 문장에서 주어진 단어들의 품사를 알아내는 task

 

dependency parsing은 문장의 단어들의 수식관계나 의존관계를 분석하는 task

 

이들은 기존 벤치마크들이 문장의 의미 위주로 평가하도록 이루어졌는데

 

언어 모델이 문법적 부분을 이해하고 있는지 체크하는 것도 필요하다고 생각하여 들어감

 

GLUE에서 기본으로 들어간 문장 분류나 자연어 추론, 문장 유사도 과제도 들어감

 

자연어 추론은 2개의 문장간 모순 관계나 포함 관계등을 추론하는 task

 

관계 추출,질의 응답, 목적형 대화는 지금까지 언급한 task들과는 차원이 다른 고난이도 task

 

관계 추출은 문장 내 2개의 text사이 관계를 파악하는 task

 

이것이 가능하다면 text에서 자동적으로 지식그래프 형태의 데이터 베이스를 만드는 것이 가능

 

질의 응답이 GLUE에는 공식적으로 없긴했지만 이것을 잘하는지 보는 것도 분명히 중요한 성능평가여서 들어갔다.

 

목적형 대화는 사람들 간의 대화로부터 의미있는 정보를 파악하여 알아서 정리해주는 task

 

앞의 과제들이 문서나 문장 수준에서 언어를 이해하는 것과는 달리 사람의 대화를 잘 이해하는지 알아보는 것을 목적으로 함

 

최근 NLP 연구자부터 산업계까지 관심이 집중된 분야

 

예를 들어보면 어떤 사람이 레스토랑에 예약 전화를 한다면

 

예약 인원은 몇명이에요? 몇시까지 예약할거에요? 특별히 원하는 음식 있어요? 등등에 대한 대답들이 중요한 정보일 것

 

이런 정보들을 알아서 정리해주는 TASK가 목적형 대화이다.

 

영어와 한국어는 분명히 다른 점이 있으니 이런 다른 점을 잘 반영하여 모델을 어떻게 디자인해야하는지 알려주는 것에 목적이 있다.

 

그러면서 한국어에 특화된 모델은 어떻게 만들어야하는지 사람들의 연구를 도와주고자하고

 

나아가 언어를 생성하는 모델은 어떻게 만들어야하며

 

이로부터 생성 모델이 언어 이해와 합쳐지면서 지식기반에서 사용자의 질문에 어떻게 응답을 잘 할수 있는지 연구하는 첫 단추가 될 것이다.

 

TAGS.

Comments