'한국어' 태그의 글 목록

GLUE 벤치마크(benchmark)는 왜 필요한가?

1. GLUE(General Language Understanding Evaluation) 대량의 데이터를 사전학습하고 원하는 task에 대해 fine-tuning만 하면 사람의 말을 기계가 잘 이해한다는 일반적인 주장이 통용 task를 전부 잘해야한다는 걸 보여줘야하니 다양한 측면을 평가해주는 데이터 군들이 중요하게 다가왔다. 어떤 모델이든 동일한 체계 위에서 공정하게 평가하는 하나의 기준이 필요했다는 것이다. QQP는 질문 2개를 임의로 뽑아 사실상 같은 질문인지 아닌지 파악하는 과제 SST-2는 stanford에서 나온 문장이 부정적인지 긍정적인지 파악하는 과제 CoLA는 문장에 문법적인 오류가 있는지 없는지 파악하는 언어 수용성 과제 STS-B, MRPC는 2개 문장의 유사도를 평가하는 과제 RT..

format_list_bulleted NLP
· 2024. 8. 14.
textsms

subword tokenizing, byte pair encoding 간단하게 알아보기

1. tokenizing 긴 text가 들어왔을 때 token단위로 text를 나누는 기술 가장 simple하게는 띄어쓰기 단위로 나누는 방법이 있는데 요즘에는 비효율적이라는 인식이 많다 띄어쓰기에서 더 나아가 형태소나 subword 형태로 tokenizing하는 경우가 많아 2. subword tokenizing 자주 쓰이는 글자 조합은 한단어로 취급하고 그렇지 않은 조합은 subword로 더욱 쪼갠다 ‘아버지 가방에 들어가신다’를 만약 띄어쓰기 기준으로 tokenizing을 하면 ‘아버지’, ‘가방에’, ‘들어가신다’인데 단어가 너무 커져 단어끼리 비교가 어렵대 그래서 조금 더 잘게 잘라서 하나의 단어를 1번 더 들어가 자르는 subword tokenizing을 함 ‘아버지’, ‘가’, ‘##방’, ..

format_list_bulleted Machine Reading Comprehension
· 2024. 3. 3.
textsms

unicode와 한국어 간단하게 알아보기

1. unicode 다양한 언어처리에서 기본적으로 중요함 전 세계 모든 문자를 일관되게 표현하고 다룰 수 있도록 만들어진 문자 set 문자마다 숫자 하나에 mapping? character을 보면 알겠지만 웬만한 문자들이 전부 unicode에 대응되어 있음 위 그림에서 보면 U+는 unicode를 뜻하는 접두어이고 AC00은 16진수 code point이며 이것이 1개의 character에 대응됨 2. UTF-8 encoding이란 문자를 컴퓨터에서 저장하거나 처리할 수 있게 이진수로 바꿔주는 작업 현재 가장 많이 쓰이는 encoding방식 중 하나가 UTF-8 문자 타입에 따라 다른 길이의 byte를 할당했음 ASCII는 256개로 character를 제한하면서 영어의 알파벳은 모두 ASCII code..

format_list_bulleted 컴퓨터과학(CS)
· 2024. 3. 3.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

GLUE 벤치마크(benchmark)는 왜 필요한가?

subword tokenizing, byte pair encoding 간단하게 알아보기

unicode와 한국어 간단하게 알아보기

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역