비전공자도 이해할 수 있는 AI지식 26 -시리는 사람의 말을 어떻게 알아듣는가-

1. 아마존 알렉사, 스마트 스피커의 시대를 열다

 

첫 음성인식 비서는 애플의 시리였지만, 스마트 스피커라는 카테고리를 처음 만든 회사는 아마존입니다. 

 

원래 제품명은 '플래시'라는 이름의 원통형 스피커였다고 합니다.

 

그러나 마지막에 에코라는 이름으로 바꾸었고 2014년 세계 최초의 스마트 스피커를 세상에 내놓았죠

 

오늘날 에코는 전 세계에 1억 대가 넘게 팔린 베스트셀러이며, 미국 시장조사 기업 이마케터가 조사한 바에 따르면, 미국 가정에 있는 스마트 스피커의 약 70%가 에코라고 합니다

 

 

 

에코를 부르는 호출어가 처음에는 '아마존'이었다고 합니다. 

 

제프 베이조스는 제품 개발 막바지까지 아마존을 고집했으나 엔지니어들은 아마존이라는 단어가 일상 대화에서 너무 흔하게 나오지 않을까 걱정했습니다

 

아마존은 이미 세상에서 가장 유명한 쇼핑몰의 이름이었기 때문입니다.

 

핀치, 프라이데이, 사만다 등을 검토하다가 결국 베이조스가 직접 아이디어를 낸 알렉사를 호출어로 결정합니다.

 

인류의 지식과 배움의 중심지였던 고대 이집트 도서관 알렉산드리아의 근사한 오마주였죠

 

이제 알렉사는 단순히 에코의 호출어를 넘어 아마존의 인공지능 플랫폼 그 자체를 가리키는 이름이 되었습니다.

 

그리고 재밌게도 알렉사가 등장한 2014년 이후에는 미국에서 자녀의 이름을 더 이상 알렉사로 짓지 않습니다.

 

아마도 매일 날씨를 알려달라고 재촉당하는 비서의 이름을 자녀의 이름으로 정하고 싶지 않아서겠죠

 

실제로 2015년에만 해도 알렉사라는 이름은 32번째로 인기있는 이름이었지만 2019년에는 139위가 되었습니다.

 

마찬가지로 시리라는 이름도 자녀의 이름으로 점점 쓰지 않죠

 

https://www.statista.com/chart/13907/babies-named-alexa/

 

2. 스마트 스피커는 어떻게 말을 알아들을까?

 

그렇다면 스피커는 어떻게 사람의 말을 알아듣고, 사람이 원하는 대답을 해줄 수 있을까요?

 

먼저 스피커는 스스로 말을 알아듣거나 말을 하지 못합니다.

 

이게 무슨 이야기일까요? 스피커 자체는 껍데기란 말이죠.

 

실제로 사람의 말을 알아듣는 과정은, 음성을 녹음하여 서버로 보내 분석하는 과정이고, 사람에게 말을 하는 기능은 녹음된 음성을 서버에서 받아와 재생하는 것입니다.

 

스피커는 사실상 마이크가 달린 일종의 블루투스 스피커에 불과하죠.

 

그렇다면 음성을 어떻게 서버에 전송할까요?

 

SKT의 NUGU라면 "아리야", 카카오미니라면, "헤이 카카오"라고 부르면 스피커가 "네?"하고 반응하면서 깨어나죠.

 

이 과정을 "웨이크업, Wake-up"이라고 합니다.

 

이때부터 사용자가 질문하거나 요청하면 이를 녹음하여 서버로 전송합니다.

 

스피커는 껍데기라고 했지만, 딱 한가지 특이한 기능이 내장되어있는데 바로 "헤이 카카오"같은 웨이크업 단어를 알아듣기 위한 음성인식 엔진이죠.

 

추가 기능 없이 딱 웨이크업 단어만 알아들을 수 있는 매우 조그만 음성인식 엔진이 스피커에 내장되어 있습니다.

 

가끔씩 스피커가 업데이트를 한다며 끄지 말고 잠시만 기다려달라고 할 때가 있는데, 이때 조그만 음성인식 엔진을 업데이트합니다.

 

보통 업데이트가 끝나고 나면 이전보다 웨이크업을 훨씬 더 잘하죠.

 

웨이크업 이후에는 본격적으로 음성파일을 서버로 전송하여 분석을 진행합니다.

 

NUGU라면 SKT의 서버로, 카카오미니라면 카카오의 서버로 전송합니다.

 

일부 예외는 있지만, 이제부터 마이크에 녹음된 모든 음성을 서버로 전송하여 분석합니다.

 

서버로 전송된 음성 파일을 어떤 과정을 거쳐 분석할까요? 이제 여기서부터는 거대한 서버 시스템이 관여합니다.

 

그리고 시스템을 각각의 기능에 따라 크게 "이해"영역인 음성인식과 자연어 이해로 "실행"영역인 다이얼로그 매니저와 스킬 그리고 "생성" 영역인 자연어 생성과 음성 합성으로 나눌 수 있습니다.

 

 

 

 

 

 

TAGS.

Comments