Loading...
2023. 6. 15. 01:19

딥마인드의 AlphaDev, 새로운 정렬 알고리즘을 발견하다

1. 서문 AlphaDev가 강화학습을 통해 설계된 더 빠른 정렬 알고리즘을 발견했다. 기본 C++ 라이브러리에서 10년만에 정렬 라이브러리에 대한 최초의 변경이며, 오픈소스화하여 전 세계 수백만명의 개발자와 기업이 클라우드 컴퓨팅 및 온라인 쇼핑에서 공급망 관리에 이르기까지 산업 전반의 AI 어플리케이션에서 이 알고리즘을 사용하고 있다 현대 정렬 알고리즘은 컴퓨터 과학자와 프로그래머가 개발하는데 수십년의 연구가 필요했다. 그것들은 매우 효율적이며, 이제는 전기를 절약하는 새로운 방법이나 보다 효율적인 수학적 접근 방식을 찾는 것과 유사하게 추가 개선을 하는 것이 주요 과제이다. 2. 어셈블리 언어에 해답이 있다 AlphaDev는 기존 알고리즘을 개선하지 않고, 처음부터 다시 시작하여 더 빠른 알고리즘을..

TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second

https://paperswithcode.com/paper/meta-learning-a-real-time-tabular-automl Papers with Code - TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second Implemented in 2 code libraries. paperswithcode.com 1. abstract 우리는 작은 tabular dataset을 1초보다 적은 시간으로 지도학습 분류를 수행할 수 있고 hyperparameter tuning도 필요없으며 SOTA classification 방법과 견줄만한 TabPFN을 제안한다 TabPFN은 세트로 training, test samp..

Multilingual BERT has an accent: Evaluating English influences on fluency in multilingual models

1. abstract multilingual language model이 주류 언어의 영향력으로 비주류 언어의 NLP 성능을 개선시킬 수 있는 반면에 그들은 또한 모든 언어의 평균적인 성능을 감소시켰다. 이를 "multilinguality의 저주"라고 부른다. 여기 우리는 multilingual model의 또 다른 문제로 "주류 언어의 문법적 구조가 비주류 언어에 출혈을 일으키는(안좋은 영향을 주어서) 현상으로 grammatical structure bias"를 보여줄 것이다. 우리는 스페인어나 그리스어 단일 모델의 유창함 대비, multilingual model의 유창함을 비교하는 새로운 방법에 숨은 이러한 bias를 보여줄 것이다. 2가지 주의깊게 선택된 변화하는 문법적 구조로, 스페인어의 선택적인..

Mega: Moving Average Equipped Gated Attention

1. abstract transformer attention에서 weak inductive bias와 quadratic 계산복잡도를 포함해서, 디자인을 선택하는 것은 long sequence를 모델링할 때 제한 사항으로 작용한다. 이 논문에서 우리는 MEGA를 제안한다. 단순하며 이론적으로 근거가 있고, 단일한 gated attention에 exponential moving average를 사용하여, 위치를 인식(position-aware)하는 local dependency의 inductive bias를 위치를 무시하는(position-agnostic) attention 메커니즘과 통합시킨다. 우리는 게다가 선형 시공간 복잡도를 가졌지만, 오직 최소의 loss를 만들어내서 효율적으로 전체 sequence..

Ask Me Anything: A simple strategy for prompting language models

1. abstract 매우 큰 언어 모델은 자연어 지시사항(natural language prompt)이 단순히 주어지면, 새로운 task에 대해 transfer을 매우 잘하며, 이는 추가적인 training없이도 task를 얼마나 잘 수행하는지를 입증한다. prompting은 약간만 바꾼다고 해도 모델의 예측에 큰 변형을 일으킬 수 있기 때문에 다루기 힘든 과정이고, 그러므로 task에 대해 공들여서 완벽한 prompt를 디자인 하는 것은 상당한 노력이 든다. prompting에 관한 노력의 정도를 완화하기 위해 우리는 대신 다양하면서 효율적인, 그러나 완벽하지 않은 prompt를 통합시키는 것이 고품질의 prompting 전략을 만들어내는지 의문을 가졌다. 우리의 관찰들이 우리가 제안하는 prompt..

Efficient Few-Shot Learning Without Prompts

2022/09/22 1. abstract 최근의 few-shot method, 예를 들어 parameter-efficient fine tuning(PEFT)와 pattern exploiting training(PET)가 label이 부족한 세팅에서 놀랄만한 결과를 보여주었다. 그러나 그들은 수동적으로 만들어진 prompts에 의한 높은 변동성과 높은 성능을 얻기 위해 수십억개의 parameter을 가진 language model을 요구하기 때문에 employ하기가 어렵다 이러한 단점을 다루기 위해 우리는 SETFIT(Sentence Transformer Fine-Tuning)을 제안한다. 이것은 효과적이고 prompt가 필요없는 프레임워크로 sentence transformer의 few-shot fine..