Loading...
2022. 10. 23. 19:45

검색엔진의 역사를 바꾼 pagerank 알고리즘 파헤치기

1. 그래프로 표현하는 웹 웹은 웹페이지와 하이퍼링크로 포함된 거대한 방향성 그래프다 웹페이지를 node, 하이퍼링크를 다음 웹페이지를 향하는 link로 볼 수 있다. 물론 웹페이지는 하이퍼링크와 무관한 keyword정보를 포함한다 웹페이지의 하이퍼링크를 클릭하여 링크가 가리키는 다음 웹페이지로 이동할 수 있다 2. pagerank는 왜 등장했을까 2-1) 거대한 디렉토리 수십억에서 수백억개가 있을 것이라고 추측하는 웹페이지에서 원하는 정보를 어떻게 찾을 수 있을까? 먼저 전 세계에 존재하는 모든 웹을 카테고리로 구분하여 하나의 디렉토리로 저장했다. 97년도의 네이버 모습으로 카테고리로 웹을 저장했다는 것이 보인다 시간이 흐르면서 카테고리 수와 깊이는 무한정 증가할 것이고 심지어 카테고리 구분은 모호해지..

2022. 10. 22. 23:51

비전공자도 이해할 수 있는 AI지식21 -세상을 놀라게 한 페이지랭크 알고리즘-

1. 사람들은 최신 지식을 원한다 기술은 항상 발전하고 과거의 지식은 새로운 지식으로 끊임없이 업데이트됩니다 대개는 새로운 정보가 옛날 정보보다 더 좋죠. 최신 문서에 좀 더 높은 점수를 주는 건 어찌 보면 당연합니다 특히 뉴스 같은 경우에는 최신 문서의 강점이 극대화됩니다. 누구도 오래된 뉴스를 보고 싶진 않을테니깐요 '갤럭시 노트 신제품'같은 쿼리가 좋은 예입니다. 여러분이 검색엔진에서 찾고 싶은 문서는 갤럭시 노트의 최신 기종 소식일 것입니다. 4~5년 전에 출시한 구버전 갤럭시 노트 소식이 상위에 올라오는걸 원치는 않겠죠 그래서 일반적으로 최신 문서일수록 점수 경쟁이 치열합니다. 반면 오래된 문서들은 비교적 점수 차이가 적죠. 1주일 이내에 발행된 문서끼리는 하루 차이로도 점수 차이가 많이 나지만..

2022. 10. 21. 01:36

비전공자도 이해할 수 있는 AI지식19 -구글이 셀 수없이 많은 문서를 모두 수집한 비결-

1. 300조개가 넘는 문서를 수집하다 구글은 엄청난 수익뿐만 아니라 엄청난 문서를 색인하고 있는 것으로도 유명합니다. 검색엔진이 인터넷에 있는 문서를 수집하여 검색에 적합하도록 보관하고 있는 것을 색인(index)이라고 합니다. 구글은 2013년에만 무려 30조 개의 문서 색인을 마쳤습니다. 불과 3년 후인 2016년에는 100조 개가 더 늘어났다고 밝혔습니다. 불과 3년만에 3배의 성과를 올렸습니다. 모두 합해 2016년에만 총 130조개의 문서 색인을 갖췄죠. 이후 더 공개하지는 않았지만, 아마 2020년 기준으로 300조 개가 훨씬 넘는 문서를 색인하고 있을 것으로 추정됩니다. 이렇게 많은 문서를 대체 어디에 보관하고 있을까요? 구글은 엄청난 양의 문서를 고가의 컴퓨터 몇대에 저장하는 게 아니라,..

2022. 10. 19. 22:39

비전공자도 이해할 수 있는 AI지식 18 -인터넷 세상을 지배한 구글의 등장-

1. 검색엔진의 등장 우리는 매일 인터넷 검색을 하며 생활합니다. 궁금한 게 있으면 언제든, 무엇이든 검색창에 물어보죠 하루에도 몇번씩 검색 서비스에 쿼리를 날립니다. 이제 검색이 없는 세상은 상상할 수가 없습니다. "쇠퇴해가는 기억력을 보좌하기 위하여, 나는 뇌수의 분실(작게 나뉜 방,공간)을 내지 않을 수 없었던 것이다" 1930년대를 대표하는 한국문학가 이하윤의 수필 에 등장하는 표현입니다. 당시에는 메모장이 뇌수의 분실 역할을 한 거죠. 그리고 시간이 지나 지금은 단연 스마트폰이 뇌수의 분실 역할을 하고 있습니다. 무엇보다 지금의 분실은 단순히 정보를 저장하는 수준을 넘어섭니다. 필요한 정보를 곧바로 찾아주기도 하죠. 그 역할을 검색 서비스가 담당합니다. 검색은 현대인의 분실에 꼭 필요한 정보를 ..