Loading...
2022. 1. 28. 09:32

transformer은 NLP의 트렌드를 어떻게 바꾸었을까

1. 기계번역의 연구 트렌드 1-1) translation based on rule 기계번역 문제는 연구자들이 수십년간 노력했던 분야로 딥러닝 이전에는 전문가들이 직접 언어간 문장구조를 고려한 rule 기반 번역을 수행했다. I love this movie라는 영어 문장을 나는 이 영화를 사랑한다.로 번역하기 위해서는 먼저 I , love, this, movie 단어별로 번역을 수행했다. 영어와 한글의 문법은 다르기 때문에 한글의 문법을 고려한 어순배열을 수행해야했다. 그러나 다양한 언어의 수많은 변수들을 일일이 고려하기에는 너무나 어렵다. 1-2) translation in RNN RNN이라는 딥러닝 기술의 등장은 이러한 고민을 해결했다. 언어학적 rule없이 단지 (영어 원문, 번역문)의 쌍으로 된 ..

2022. 1. 25. 16:45

bag of word - 왜 단어는 숫자 벡터로 표현해야할까? -

1. 왜 단어는 숫자 벡터로 표현해야할까 대부분의 딥러닝 기술들이 수치형태의 입출력을 다룬다. 그래서 언어 그 자체를 수치로 변환하지 않고서는 딥러닝 모델에 넣을 수가 없다 2. word embedding 단어를 벡터공간 상의 한 점으로 나타내는 과정 자연어 처리에 이런 딥러닝 기술들을 적용하기 위해서는 text를 단어 단위로 분리하고 각 단어를 특정 차원으로 이루어진 수치 벡터로 표현하는 embedding 과정을 거친다. 3. bag of words 딥러닝 이전에 자연어 처리에 적용되던 단어를 숫자로 나타내는 간단한 기술 1. 주어진 언어 데이터에서 유일한 단어를 모아 사전으로 구축 ‘john really really loves this movie’ ‘jane really likes this song’..

텍스트마이닝(Text Mining)과 정보검색(information retrieval)이란?

1. text mining KDD,WSDM,ICWSM,CIKM 등에서 연구 선도 빅데이터 분석의 한 종류 대규모의 텍스트 데이터로부터, 예를 들면 과거 1년간 몇백만건의 뉴스기사를 모아 거기서 나타난 뉴스들의 키워드를 시간순으로 나열하여 (AI트렌드,상품트렌드)트렌드를 분석함 혹은 유명인의 이미지 변화를 분석함 회사에서 출시한 상품에 관한 리뷰들을 키워드로 분석하여 소비자 반응을 알아봄 서로 다른 단어지만 비슷한 의미를 가지는 키워드들을 그룹화한 document clustering, topic modeling sns 빅데이터를 분석하여 신조어 현황을 파악하여 사회 전반적인 현상을 파악, social science에 대한 insight를 얻음 예를 들어 sns에 ‘혼밥’이라는 단어가 다수 등장한다는 것은 ..

2022. 1. 20. 22:58

NLP란 무엇인가?

1. natural language problem 컴퓨터가 주어진 인간의 단어나 문장을 이해하는 understanding과 적절한 자연어를 생성하는 generation으로 나뉜다. 컴퓨터 비전(CV) 분야와 더불어 딥러닝의 발전과 함께 인공지능이 가장 활발하게 적용된 분야중 하나 현재까지 주어진 단어나 문장, 문단을 보고 다음 단어를 예측하는 language modeling 주어진 문장을 이해하여 적절한 번역문을 차례대로 생성하는 machine translation 주어진 지문을 이해하고 그에 대한 질문에 적절한 대답을 제시하는 question answering 다양한 카테고리의 여러 문서를 적절한 카테고리로 분류하는 document classification 인간의 물음을 이해하고 적절한 대답을 생성하..