비전공자도 이해할 수 있는 AI 지식3 -인공지능 발전에 영향을 준 요소들-

1. 데이터는 인공지능의 원유

 

2012년부터 떠오르는 10대 기술로 첫번째를 빅데이터로 선정할 정도로 이미 가장 중요한 기술로 선정되었는데, 빅데이터가 도대체 무엇이냐?라고 물으면 대답하기 쉽지 않았다

 

단순히 많은 데이터를 모아두는 것이 왜 바이오, 화학, 식량보다 중요한 기술이냐는 것이다.

 

당시에는 그만큼 데이터를 제대로 활용할 수 있는 기술이 부족했다.

 

1907년 프랜시스 골턴이 <네이처>에 논문 한 편을 제출하는데.. 논문 내용 중에 커다란 황소 한마리를 도축하고 고기 중량을 알아맞히는 이벤트를 진행했다고 한다.

 

관객들은 6펜스를 내고 티켓에 이름, 주소, 추정 무게등을 기입하여 제출했는데 800여명이 참여하였고 골턴은 이들의 중앙값을 구해보았다고 한다

 

중앙값은 547kg이었는데 실제로 도축한 고기의 무게는 얼마였을까? 543kg이었다. 추정한 무게의 중앙값보다 4kg밖에 차이가 안났던 것이다.

 

골턴은 이 논문에 'Vox Populi'라는 제목을 붙였는데, '인민의 목소리', 오늘날 대중의 지혜(the wisdom of crowds)라는 개념으로 잘 알려져 있다.

 

다양한 집단의 데이터가 많이 모이면 소수 전문가의 의견보다 더 정답에 가까운 결과를 얻어낼 수 있다는 원리이다.

 

평범한 다수는 탁월한 소수보다 훨씬 더 현명할 수 있다는 증명으로 데이터의 힘이다.

 

2001년 마이크로소프트의 연구자들은 충분한 데이터만 있으면 어떠한 알고리즘을 거치든 관계없이 정확도가 높아진다는 관점의 논문을 발표했다.

 

Scaling to Very Very Large Corpora for Natural Language Disambiguation - ACL Anthology

 

Scaling to Very Very Large Corpora for Natural Language Disambiguation

Michele Banko, Eric Brill. Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics. 2001.

aclanthology.org

 

 

자연어 처리 문제에 여러 알고리즘을 적용한 실험 결과를 위와 같이 보여주는데

 

단어 수가 증가할수록 어떤 알고리즘이든 결국에 정확도가 증가하므로 데이터의 차이가 정확도를 더 높일 수 있다는 것을 증명한 것이다.

 

복잡한 문제일수록 좋은 알고리즘을 찾아 문제를 해결하기 보다는 문제의 복잡성을 인정하고 거대한 데이터의 힘을 이용해 문제를 해결하는게 훨씬 더 합리적이라는 것이다.

 

이 논문을 계기로 데이터가 중요하다는 믿음이 인공지능에서 널리 퍼졌다.

 

구글의 인공지능 연구 디렉터 피터 노빅도 <the unreasonable effectiveness of data>라는 유명 논문에서 "많은 데이터를 가진 간단한 모델이 적은 데이터를 가진 정교한 모델보다 더 뛰어나다"라고 주장했다

 

머신러닝의 대가 앤드루 응(andrew ng) 교수도 이 점을 동일하게 강조하여 데이터 중심으로 접근해야 훨씬 더 좋은 성능을 낼 수 있다는 것을 보여주고 있다.

 

2012년 빅데이터는 거품 논란이 있었지만, 데이터의 양이 증가하자 믿을 수 없는 데이터의 효과가 나타나 놀랄 정도로 정확도가 향상되면서, 빅데이터가 아니면 인공지능이 다시 주목받을 수 없었다

 

 

출처

 

 

 

 

 

TAGS.

Comments