Loading...
2022. 12. 27. 01:17

비전공자도 이해할 수 있는 AI지식 -구글은 어떻게 언어를 숫자로 바꿨는가-

1. Word2Vec, 언어를 숫자로 바꾸다 2013년 구글은 단어의 의미를 벡터로 표현하는 매우 획기적인 방법을 발표합니다. 그 방법의 이름은 Word2Vec으로, 단어를 벡터로 바꾼다는 매우 직관적인 이름입니다. 무엇보다 놀랍도록 정교하게 단어의 의미를 표현해내 많은 이가 깜짝 놀랐습니다. 이처럼 단어를 벡터라는 숫자로 표현하는 것은 단어 각각의 특징을 추출해 수치화하는 것과 비슷합니다. 예를 들어 '단맛', '크기', '둥근 정도'라는 3가지 특징으로 단어 '캐러멜', '호박', '태양'을 표현해보죠. 관련이 전혀 없다면 0.01, 관련이 매우 높다면 0.99까지 가중치를 준다고 해봅시다. 단어 단맛 크기 둥근 정도 캐러멜 0.92 0.06 0.02 호박 0.23 0.29 0.62 태양 0.01 0..

2022. 12. 20. 02:46

강화학습(reinforcement learning) 기본개념 익히기

1. 강화학습(reinforcement learning) 미지의 환경(environment)에서 에이전트(agent)가 임의의 행동(action)을 했을 때 받는 보상(reward)을 통해 먼 미래의 누적 보상을 최대화하고자 어떠한 행동을 할 것인지를 학습하는 알고리즘 마치 반려견을 훈련시키는 것과 유사하다. 강아지 입장에서 "앉아"라는 명령어를 들었을때, 여러 행동 중 우연히 앉았을 때 간식이라는 보상을 받게 된다. 강아지는 처음에 "앉아"를 인식하지 못한 상황에서 보상을 받았기 때문에 행동과 보상의 관계를 인지하진 못한다. 하지만 시행착오를 통해 "앉으면 간식을 받을 수 있구나"라고 학습하게 된다. 강화학습은 에이전트(agent)가 환경에서 특정 행동을 하면, 환경(environment)은 행동에 대..

2022. 12. 19. 23:37

비전공자도 이해할 수 있는 AI지식 -이루다는 왜 2주만에 서비스를 멈췄는가-

1. 컴퓨터와 대화할 수 있을까 이루다는 국내 스타트업이 개발한 챗봇입니다. 자유 주제 대화시스템(Open Domain Dialogue System)을 기반으로 어떤 주제로든 자유롭게 대화할 수 있는 인공지능을 이루었다는 의미로 이름 지은, 스무 살의 소녀로 설정된 챗봇입니다. 십수년 전에 '심심이'라는 챗봇이 큰 인기를 끈 적이 있었습니다 수백 가지 규칙을 입력한 챗봇은 규칙에 맞게 질문이 들어오면 이에 해당하는 대답을 해주었습니다. 규칙 기반의 챗봇은 한계가 분명 있었지만, 심심이는 나름대로 풍부한 규칙으로 이름처럼 심심치 않게 대화를 이어나갈 수 있었고, 많은 사람이 대화에 빠져들게 됩니다. 1966년 MIT의 컴퓨터 과학자 요제프 바이첸바움은 세계 최초의 챗봇 일라이자(ELIZA)를 개발합니다. ..

2022. 12. 19. 03:47

RNN(Recurrent Neural Network)과 LSTM(Long Short-term Memory) 기본 개념 되돌아보기

1. RNN의 기본 구조 일반적으로 데이터 사이에 서로 영향을 주지 않고 시간적 정보가 없는 경우가 많다. 하지만 시계열과 같은 순차적 데이터(sequential data)는 과거가 미래에 영향을 주므로 데이터 사이에 독립을 가정한 모형을 적합시키면 좋은 성능을 기대하기 어렵다. Recurrent Neural Network(RNN)는 음성 인식과 자연어 처리와 같이 순차적 데이터에 사용되는 대표적인 알고리즘 Long Short term memory(LSTM)와 Gated Recurrent Unit(GRU)의 근간이 되는 모델 인공신경망과 CNN은 입력층에서 은닉층으로, 은닉층에서 출력층으로 움직이는 순방향 신경망(Feed forward neural network) 반면 RNN은 입력층에서 출력층(x ->..

2022. 12. 17. 20:52

비전공자도 이해할 수 있는 AI지식 -외국어를 공부안해도 되는 시대는 올 수 있을까-

1. 언어의 규칙을 파악하고자 하다 지금까지 살펴본 내용을 정리해보겠습니다. 기계번역은 오래전 등장해 큰 관심을 받았지만, 뚜렷한 성과로 이어지지 못하면서, 오랜 침체기에 빠져있었습니다. 구글이 통계에 기반한 기계번역 서비스를 출시한 것은 2006년이었지만, 당시만 해도 그리 좋은 결과를 보여주진 못했습니다. 시스트란이 1968년부터 시도했던 규칙 기반과 큰 차이가 없었죠. 특히 영어-한국어 번역처럼 언어 구조가 많이 다른 경우에는 형편없는 결과를 보여주었습니다. 그나마 어순이 서로 비슷한 일본어-한국어 번역에서 규칙 기반으로 어느 정도 품질을 보장할 수 있었습니다만 이런 경우는 일부에 불과했죠. 우리가 학창 시절에 언어를 배울 때의 기억을 떠올려봅니다. 먼저 명사, 동사, 형용사 등을 구분하는 법을 배..

2022. 12. 13. 02:03

비전공자도 이해할 수 있는 AI지식 -언어의 모든 규칙을 알 수 있을까-

1. 언어의 모든 규칙을 찾아 번역하다 기계번역을 대표하는 회사로 1968년 설립한 시스트란이 있습니다. 이제는 50년이 훌쩍 넘는 역사를 자랑하는 이 회사는 헝가리 출신의 컴퓨터 과학자 피터 토마 박사가 설립했습니다. 초창기 기계번역을 연구해 2000년대 초반까지는 야후!와 구글에 제품을 납품할 정도로 세계 최고의 번역 품질을 자랑했습니다. 시스트란은 규칙 기반의 기계번역(rule-based machine translation)을 이용했습니다. 언어학자들이 일일이 정의한 규칙을 수십 년간 쌓아올렸고, 이를 이용해 당시 기준으로는 가장 높은 품질의 번역 서비스를 제공했습니다. 하지만 쉽게 예상할 수 있듯 규칙 기반에는 한계가 있습니다. 규칙을 아무리 세워도 언어의 무궁무진한 변화를 결코 따라갈 수 없기 ..