Scaling to Very Very Large Corpora for Natural Language Disambiguation

Michele Banko, Eric Brill. Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics. 2001.

aclanthology.org

1. abstract

이미 이용가능한 온라인 텍스트의 양은 수천억 단어에 도달했고, 점점 더 증가하고 있다.

그러나 대부분의 핵심 natural language task에서는 알고리즘이 계속해서 최적화되고 있고, 오직 100만 이하의 단어보다 더 적게 구성된 데이터로 학습된 후에 test되고 비교한다

이 논문에서 우리는 서로 다른 학습 방법의 성능을 이전에 사용된 데이터들보다 더욱 많은 데이터를 가지고 학습시켜서 단어의 의미를 명확히 하는 natural language task들에 평가하였다.

우리는 운이 좋게도 이런 특별한 응용에 정확하게 레이블된 training data가 무료였다.

이런 경우가 종종 있는 경우가 아니므로 우리는 레이블된 데이터에 비용이 발생할때, 효과적으로 매우 큰 데이터를 사용하는 방법에 대해 검사했다.

728x90

논문읽으면서 Variational Autoencoder 복기 (0)	2023.04.25
알파고 3종 논문 서문 읽어보기 (0)	2022.10.07

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바