NLP란 무엇인가?
1. natural language problem
컴퓨터가 주어진 인간의 단어나 문장을 이해하는 understanding과 적절한 자연어를 생성하는 generation으로 나뉜다.
컴퓨터 비전(CV) 분야와 더불어 딥러닝의 발전과 함께 인공지능이 가장 활발하게 적용된 분야중 하나
현재까지 주어진 단어나 문장, 문단을 보고 다음 단어를 예측하는 language modeling
주어진 문장을 이해하여 적절한 번역문을 차례대로 생성하는 machine translation
주어진 지문을 이해하고 그에 대한 질문에 적절한 대답을 제시하는 question answering
다양한 카테고리의 여러 문서를 적절한 카테고리로 분류하는 document classification
인간의 물음을 이해하고 적절한 대답을 생성하는 챗봇같은 dialog system
2. natural language processing
acl,emnlp,naacl 같은 학회에서 선도
최신 딥러닝 기술이 활발하게 적용되는 자연어 처리 분야
2-1) low level parsing
단어를 준비하기 위한 가장 low level의 NLP task
㉮ tokenization
컴퓨터가 ‘I study math’를 이해하기위해 의미 단위로 쪼개는데 그 단위를 token이라 한다.
----------------------------------------------------------------------------------------------------------------------------
※token이란 뭡니까?
착각할 수 있는 것이 token은 단순히 띄어쓰기 단위로 쪼갠 단어가 아니다.
‘데이터 또는 task에 따라 단순히 띄어 쓰기로 나눈 어절 일 수도 있고
하나의 글자, 음절 일 수도 있고
subword가 될 수도 있는 등 tokenizer가 이해하고 있는 규칙 또는 알고리즘에 따라서 얼마든지 달라질 수 있다.’
-----------------------------------------------------------------------------------------------------------------------------
토크나이저가 의미를 이해하기 위해 판단한 최소 의미 단위로 sequence data를 쪼개는 과정으로 토크나이저 종류에 따라 결과가 다르다.
문장이라는 것은 token들이 특정순서로 이루어진 sequence data
㉯ stemming
study는 studying, studied등으로 어미 변화가 가능하고 하늘이 맑다에서 맑다는 맑은데, 맑지만 등으로 변화가 가능하다.
그럼에도 불구하고 기본적인 뜻은 변하지 않는데 컴퓨터가 이들이 기본적인 의미는 동일하다는 것을 이해할 수 있게 어근을 추출하는 과정을 말한다.
2-2) word and phrase level
㉮ Named entity recognition
단일 혹은 여러 단어들의 고유명사를 인식하는 과정
예를 들면 뉴욕타임스를 뉴욕, 타임스로 쪼개지않고 ‘뉴욕타임스’라는 하나의 고유명사로 인식하게하는 과정이다.
㉯ part of speech tagging(pos tagging)
word가 문장속에서 어떤 역할을 하는지 알아내는 일
구체적으로 word의 성분이나 품사를 알아내는 일로 예를 들어 단어가 형용사인지, 형용사면 어떤 단어를 꾸미는지
㉰ noun-phrase chunking
문장을 명사나 동사, 구 단위로 나누는 행위
㉱ dependency parsing
문장에서 어구들이 서로 의존관계를 가진다고 보고 그러한 구조를 분석하는 것
㉲ coreference resolution
문장에서 여러 단어들이 동시에 하나의 어구를 지칭하는 것을 coreference라 하고 그것을 분석하는 것
2-3) sentence level
㉮ sentiment analysis
문장의 감정을 분석하는 과정
예를 들어 I love this movie 긍정문
This movie was not bad는 긍정문
bad가 있음에도 not에 의해 긍정이라 할 수 있어야함
㉯ machine translation
‘I study math’라는 영어 문장을 전체적으로 이해하고 한글로 번역하기 위해
한글 문법을 고려한 어순배열을 통해 적절한 번역인 ‘나는 수학을 공부한다’를 생성하는 과정
2-4) multi sentence and paragraph level
㉮ entailment prediction
두 문장 간 논리적 내포나 모순관계를 예측
어제 대혁이가 결혼했다.
어제 최소 1명이 결혼했다.
어제 1명도 결혼하지 않았다.
첫번째 문장이 참이면 두번째 문장은 당연히 참인 내포관계
그러나 첫번째 문장과 3번째 문장은 절대로 동시에 참일 수 없는 모순관계
㉯ question answering
when is taeyeon’s birthday라고 구글에 검색해보면 예전에는 taeyeon, birthday등이 들어간 사이트들의 리스트를 보여주었다.
그런데 지금은 질문을 컴퓨터가 이해하여 그것에 대한 답변을 검색결과 맨 위에 표시해준다.
키워드들이 포함된 문서를 검색하면서 문서를 독해하여 정답을 알아내고 제시해줌
㉰ dialog systems
챗봇기술이라고 보면 된다.
사람의 말을 학습하여 질문을 이해한 챗봇이 대화하듯이 대답을 해준다
㉱ summarization
다양한 뉴스 문서 내용을 1줄로 요약해주는 과정
'딥러닝 > NLP' 카테고리의 다른 글
naive bayes classifier의 문제점을 보완하는 Laplace smoothing (0) | 2022.02.04 |
---|---|
Naive bayes classifier의 개념과 핵심 아이디어 (0) | 2022.01.30 |
transformer은 NLP의 트렌드를 어떻게 바꾸었을까 (0) | 2022.01.28 |
bag of word - 왜 단어는 숫자 벡터로 표현해야할까? - (0) | 2022.01.25 |
텍스트마이닝(Text Mining)과 정보검색(information retrieval)이란? (0) | 2022.01.25 |