비전공자도 이해할 수 있는 AI지식 -유튜브 추천 시스템은 어떻게 탄생했는가-

1. 넷플릭스부터 유튜브까지, 추천서비스의 역사

 

"오늘도 알 수 없는 유튜브 알고리즘이 나를 여기로 이끌었다"

 

유튜브에서 가장 자주 볼 수 있는 댓글입니다. 그만큼 유튜브의 추천 알고리즘은 사람의 마음을 읽는다고 해도 과언이 아니죠

 

실제로 유튜브는 서비스 대부분이 추천으로 구성되어 있습니다.

 

홈 화면도 추천이고 영상을 보고 나면 바로 밑에 나오는 관련 동영상도 모두 추천이죠.

 

통계에 따르면, 유튜브에서 사람들이 보는 영상 중 70%는 알고리즘이 추천한 영상이라고 합니다.

 

 

사실 추천 알고리즘을 얘기할 때 유튜브보다도 넷플릭스를 얘기안할 수가 없습니다.

 

심지어 넷플릭스는 스트리밍 서비스를 시작하기도 전, DVD를 우편으로 배달하던 시절인 2006년부터 그 유명한 넷플릭스 프라이즈를 개최하죠

 

한 편의 영화를 고르면 DVD를 받을 때까지 시간이 꽤 걸렸기 때문에 영화를 신중하게 택해야했습니다.

 

넷플릭스는 영화를 추천하는 방법으로 이 문제를 해결하고 싶었습니다.

 

그래서 고객이 영화에 부여한 별점 데이터 1억 건을 공개하고 이 데이터를 이용해 실제로 고객이 아직 보지 않은 영화에 부여할 별점을 예측하는 대회를 개최했습니다.

 

기존보다 10% 이상 향상한 알고리즘을 제출하는 팀에게는 무려 100만 달러의 상금을 주기로 했죠.

 

당연히 유수의 대학과 연구소, 심지어 아이를 재우고 야심한 밤에 홀로 주방에 작업실을 차리고 앉아 추천 알고리즘을 고민하던 아마추어 데이터 과학자까지, 수많은 팀이 도전합니다.

 

AT&T 연구소의 과학자들이 모인 벨코르 팀도 있었고 1장에서 살펴본 이미지넷 대회에서 우승하며 딥러닝을 개척한 토론토대학교의 힌튼 교수가 이끄는 팀도 2006년에 이 대회에 참가했습니다. (오 그래???)

 

참가자는 계속 늘어 컴퓨터 과학, 수학 전공자뿐만 아니라 심리학처럼 별 관련이 없어 보이는 분야의 전문가에 이르기까지 수많은 사람이 참여했습니다.

 

이들은 치열하게 경쟁했지만 우승을 위해서는 또 서로 협력할 줄도 알았습니다.

 

BellKor팀과 PragmaticTheory팀, BigChaos팀은 우승을 위해 BellKor's Pragmatic Chaos라는 단일팀으로 뭉칩니다.

 

머신러닝에서도 성능을 끌어올리기 위해 여러 알고리즘을 하나로 합치는 기법이 있는데, 이들은 아예 팀을 합치기로 했습니다.

 

결국 이들의 협력이 2009년 대회에서 우승을 차지하고 상금 100만 달러를 차지하면서 결실을 맺게 됩니다.

 

이 대회 이후에도 넷플릭스는 추천 알고리즘에 꾸준히 투자해왔고, 지금은 넷플릭스 시청의 80%가 추천을 거쳐 이뤄집니다.

 

넷플릭스도 유튜브처럼 서비스 전체가 추천으로 구성되어 있다 해도 과언이 아닙니다.

 

넷플릭스를 벤치마킹한 우리나라의 왓챠 플레이도 마찬가지입니다.

 

팔로워의 리스트에 있는 영화를 추천해주는 등 방식만 조금 다를 뿐, 추천을 기반으로 서비스를 구성하고 있다는 점은 사실상 넷플릭스와 동일합니다.

 

음악 서비스도 마찬가지입니다. 얼마 전 국내에 진출한 세계 최대 음원 스트리밍 서비스 스포티파이는 서비스 전체가 추천으로 구성되어 있습니다.

 

고객이 팔로우한 아티스트나 감상한 노래, 장르 등을 바탕으로 플레이리스트를 자동으로 생성해주는 데일리믹스는 스포티파이의 핵심 기능이기도 합니다.

 

스포티파이는 추천 알고리즘의 이름을 BaRT(Bandits for Recommendations as Treatments)로 지었는데, 직역하면 "고객을 만족시키는 여러가지 추천 시도"정도가 됩니다.

 

고객이 만족할 때까지 다양한 음악을 추천해주겠다는 거죠. 실제로 추천 시스템을 실험한 논문

 

Explore, Exploit, and Explain: Personalizing Explainable Recommendations with Bandits (squarespace.com)

 

에 따르면 플레이리스트를 랜덤으로 했을 때에 비해 청취율이 40%정도 높았다고 합니다.

 

추천 하면 또 페이스북을 빼놓을 수 없습니다.

 

원래 페이스북의 뉴스피드는 친구들의 글을 단순히 시간 순으로 보여줄 뿐이었습니다.

 

그러다 2007년에 그 유명한 '좋아요' 버튼이 등장하죠

 

2009년에는 가장 많이 좋아요를 받은 게시물이 뉴스피드의 맨 위로 올라가는 알고리즘을 처음으로 선보입니다.

 

이후 페이스북은 이 알고리즘을 지속적으로 고도화합니다.

 

이제 뉴스피드는 정교한 추천 알고리즘에 따라 어떤 게시물을 먼저 보여줄지 결정합니다.

 

누가 게시했는지, 게시자가 영향력 있는 인물인지, 내가 선호하는 게시자인지, 평소에 '좋아요'나 댓글을 주고받는 사이인지 등 모든 면을 종합하여 뉴스피드에 노출할 확률을 계산합니다.

 

게시물이 반응이 좋다면, 예를 들어 '좋아요'가 많이 달리거나 사용자가 오랫동안 머무는 게시물이라면 그 게시물은 뉴스피드에 오랫동안 노출되기도 합니다.

 

게시물의 종류도 중요합니다. 만약 내 친구가 유명한 소설가라면 소설가 친구가 쓴 장문의 글이 뉴스피드에 등장할 것이고,

 

내 친구가 유명한 여배우라면 그녀의 사진이 뉴스피드에 주로 노출되죠. 

 

만약 동영상 콘텐츠라면 끝까지 시청했는지 여부도 중요합니다.

 

알고리즘에는 개인화도 적용합니다.

 

사람에 따라 행동의 가중치를 다르게 주는 거죠. 만약 내가 수줍음을 많이 타는 성격이라 댓글보다는 '좋아요'를 누르며 반응한다면, '좋아요'에 좀 더 높은 가중치를 부여하는 식이죠.

 

흥미로운 알고리즘으로 휴대폰의 인터넷 속도가 느리다면 뉴스피드에 동영상을 적게 보여주는 것도 있습니다.

 

좀 더 과거로 거슬러 올라가 추천 시스템의 원조는 사실 아마존입니다.

 

아마존은 이미 1990년대부터 구매한 상품과 관련 있는 상품, 고객이 관심있어할 만한 상품, 궁극적으로 고객이 구매할 것 같은 상품을 함께 추천하여 상당한 성과를 거두었습니다.

 

2000년대 초반 아마존의 추천 시스템은 이미 전 세계적으로 유명해졌습니다. 업계를 넘어 학계에서도 아마존의 추천 시스템은 유명합니다.

 

아마존의 추천 시스템을 다룬 2003년 논문이 지난 20년간 가장 영향력 있는 논문으로 선정되었습니다.

 

아마존의 추천 시스템 초기에는 관련 상품을 나열해주는 정도에 그쳤으나, 클릭률과 구매율에 영향을 주며 성공적인 서비스로 정착했습니다.

 

추천 시스템의 핵심은 사용하면 할수록 정교해진다는 데 있습니다.

 

데이터가 늘어나고 정보가 많아질수록 훨씬 더 정확한 추천이 가능하죠. 

 

전체 매출에서 추천 시스템이 차지하는 비중은 상당히 높습니다. 아마존 제품의 35%는 추천에서 발생하는 판매라고 합니다.

 

아마존의 추천 방식은 매우 다양합니다. 최근에 살펴본 상품과 유사한 상품을 추천하고, 상품 조회 목록을 기반으로 추천하기도 하며, 이 상품을 구매한 사람이 함께 구매한 상품을 추천하기도 합니다.

 

요즘은 국내 온라인 서점도 대부분 "이 책을 구매한 독자가 함께 구매한 책"의 형태로 추천 서비스를 하고 있는데, 이 서비스의 원조가 아마존입니다. 

 

미국에서는 오프라인 매장에서도 쓸 정도로 익숙한 서비스입니다. 

 

"사과를 구매한 고객들은 배도 구매했습니다"라는 식의 팻말이 시장 좌판에까지 깔려있습니다.

 

이렇게 추천 서비스를 하는 이유는 사람들의 기호에 강한 연관성이 있기 때문입니다.

 

이를 분석하는 방식을 연관성 분석이라고 하고, 상품간의 상관관계를 찾아내는 데 유용합니다. 추천 시스템을 도입한 아마존이 가장 먼저 적용한 분석 방식이기도 합니다.

 

 

 

TAGS.

Comments