Ask Me Anything: A simple strategy for prompting language models

1. abstract

 

매우 큰 언어 모델은 자연어 지시사항(natural language prompt)이 단순히 주어지면, 새로운 task에 대해 transfer을 매우 잘하며, 이는 추가적인 training없이도 task를 얼마나 잘 수행하는지를 입증한다.

 

prompting은 약간만 바꾼다고 해도 모델의 예측에 큰 변형을 일으킬 수 있기 때문에 다루기 힘든 과정이고,

 

그러므로 task에 대해 공들여서 완벽한 prompt를 디자인 하는 것은 상당한 노력이 든다.

 

prompting에 관한 노력의 정도를 완화하기 위해 우리는 대신 다양하면서 효율적인, 그러나 완벽하지 않은 prompt를 통합시키는 것이 고품질의 prompting 전략을 만들어내는지 의문을 가졌다.

 

우리의 관찰들이 우리가 제안하는 prompting method인 ASK ME ANYTHING PROMPTING(AMA)에 영감을 주었다.

 

먼저 우리는 효율적인 prompting format에 대한 이해도를 높였는데,

 

question answering promptng에서, 제약을 두지 않는 질문(예를 들어 "Who went to the park?")이 model output에 제약을 두는 질문("John went to the park. Output True or False")보다 성능이 뛰어남을 알아냈다.

 

우리의 접근은 재귀적으로 큰 언어모델이 task input을 효율적인 question answering format으로 바꾸는데 사용되었다.

 

우리는 이런 prompt에 input의 true label에 대해 어느정도 noise를 모으는 것을 적용했다.

 

우리는 이 prompt가 매우 다른 정확성과 복잡한 의존성을 가졌고 그래서 weak supervision으로 마지막 예측을 만들어내기 위해 noisy prediction을 결합하는 과정을 추가할 것을 제안한다.

 

우리는 AMA를 EleutherAI, BLOOM, OPT, T0같은 125M~175B개의 parameter를 가지는 오픈소스 모델들에 평가해보고, 10.2%정도의 평균 성능 향상을 입증했다.

 

이런 단순한 전략이 오픈 소스 GPT-J-6B 모델이 few shot learning을 수행한 GPT3-175B의 성능을 15~20개 정도 인기있는 벤치마크에서 뛰어넘게 할 수 있다는 것이다.

 

우리 코드를 HazyResearch/ama_prompting: Ask Me Anything language model prompting (github.com)에서 공개하고 있다.

 

약간 관심이 생겨서 좀 더 읽어보고 싶긴하네

 

 

 

https://paperswithcode.com/paper/ask-me-anything-a-simple-strategy-for

 

Papers with Code - Ask Me Anything: A simple strategy for prompting language models

#2 best model for Question Answering on Story Cloze Test (Accuracy metric)

paperswithcode.com

 

 

TAGS.

Comments