Loading...
2024. 3. 21. 02:45

query와 passage의 similarity search를 근사(approximation)시키는 법

1. scalar quantization 벡터를 압축하여 하나의 벡터가 원래보다 더 적은 용량을 차지하도록 compression하는 기술 당연하지만 압축량이 커질수록 요구되는 메모리공간은 작아지지만 그만큼 정보손실도 커진다 일반적으로 벡터 내 수치는 float32로 저장함 SQ8은 4byte float32를 1byte int8이나 float8???로 저장하는 방식(quantization이면 int8이 더 어울리긴해) 그러면서 한 값의 저장용량을 1/4로 줄인다 강의에서는 4byte float32를 1byte unsigned int8로 압축한다고 나와있네 각 수치가 4byte에서 1byte로 줄어들면서 크기가 줄어든것을 볼수 있음 보통 inner product에서 float32까지 필요한 경우는 많지 않아..

2024. 3. 20. 03:07

질문과 관련있는 지문을 찾는 Maximum Inner Product Search

1. Motivation dense embedding을 이용한 retrieve의 원리는 굉장히 간단한데 passage를 미리 embedding해놓고 question이 들어오면 embedding을 한 뒤 미리 embedding한 passage들과 similarity score를 전부 계산한 다음 가장 높은 score를 가진 passage를 출력 similarity score는 nearest neighbor에서 distance가 가까울수록 높은 점수를 부여하는 방식을 생각해볼 수 있고 inner product가 높을수록 높은 점수를 부여하는 방식을 생각해볼 수 있다. 사람이 이해하기에 nearest search가 위치 거리측면에서 생각하면서 이해하기 쉽다 근데 학습이나 효율성측면에서는 nearest neig..

2023. 1. 1. 01:51

비전공자도 이해할 수 있는 AI지식 -진정한 이해는 무엇인가-

1. 인간을 흉내낼 수 있다면 생각할 수 있는 것이다 우리 말을 이해하는 것처럼 보였던 컴퓨터가 사실은 언어를 숫자로 바꿔 확률을 계산할 뿐이란 점에 실망한 분도 있을 것 같습니다. 그렇다면 과연 이해한다는 것은 무엇을 의미할까요? 앨런 튜링은 에서 '기계는 생각할 수 있는가?'라는 담대한 질문을 던지면서 생각의 정의를 내리는 어려운 과정을 탐구하는 대신에 인간이 생각한다고 여기는 행동을 기계가 흉내낼 수 있다면 이를 '생각한다'라고 판정하자고 제안합니다. 누군가가 의식하고 있는지를 알아내는 유일한 방법은 그 사람의 행동을 내 행동과 비교하는 것 뿐인데 기계라고 굳이 다르게 취급할 이유가 없다는 것입니다. 이 발상을 바탕으로 제안한 것이 바로 그 유명한 '이미테이션 게임', 우리말로 하면 '흉내 놀이'입..

2022. 12. 31. 01:14

비전공자도 이해할 수 있는 AI지식 -기계는 언어를 이해할 수 없는가-

1. 언어를 이해한다는 것은 무슨 말인가 그렇다면 이루다도 GPT같은 언어 생성 모델을 기반으로 하는 챗봇이었을까요? 컨퍼런스에서 이루다의 기술을 발표한 자료에 따르면, 이루다는 언어 생성 모델을 활용한 것이 아닙니다. 이루다에 적용한 것은 대화를 이해하고 여러 개의 응답 중 가장 적절한 응답을 선택하는 이해 모델에 좀 더 가깝습니다. 이루다의 원리를 이해하기 위해서는 먼저 언어를 이해한다는 것이 과연 무엇을 의미하는지부터 알아야합니다. "백두산의 높이는 얼마야?" 검색엔진에 질문을 입력하면 바로 정답을 찾아주는 경우가 있습니다. "백두산의 높이는 얼마야?"라고 질문하면 관련 문서에서 2744m라고 정답을 바로 찾아냅니다. 정답을 한번에 찾아낸다는 점에서 유사한 문서를 찾아내는 검색엔진과는 조금 다른 기..

2022. 12. 29. 23:18

비전공자도 이해할 수 있는 AI지식 -인간보다 말을 잘하는 기계의 등장-

1. 괴물같은 언어 인공지능의 등장 2015년 인류 전체에 이익이 되는 범용 인공지능을 목표로 비영리 인공지능연구소 오픈 AI가 발족합니다. 여기에는 전 세계 최고의 인공지능 연구자들이 모여들었습니다. 설립자들 또한 일론 머스크, 실리콘 밸리 투자 회사 Y컴비네이터 회장 샘 올트먼, AlexNet과 기계번역, 알파고 개발에 참여한 일리야 수츠케버 등이 참여한 드림팀이었습니다. 2019년에는 마이크로소프트가 1조원을 투자하기로 결정해 화제가 되기도 했죠. 이러한 투자에 힘입어 AI에는 놀라운 결과물이 쏟아졌습니다. 그중에서도 대표적인 것이 언어 생성 모델인 GPT(generative pretrained transformer)입니다. GPT는 6장에서 소개했던 기계번역 모델인 트랜스포머에서 디코더만 가져와 ..

2022. 12. 29. 01:33

비전공자도 이해할 수 있는 AI지식 -기계와 대화할 수 있을까-

1. "기계는 인간이 시키는 일만 한다" 지금까지는 챗봇이 문제해결용 대화 시스템으로 활약하는 방식을 살펴봤습니다. 챗봇이 고객센터의 역할을 하는 것이죠. 하지만 앞서 소개한 이루다처럼 자유 주제 대화 시스템의 챗봇이라면 인간과 자유롭게 대화하기 위해 어떤 과정을 거쳐야 할까요? 자유로운 대화를 할 때도 마찬가지로 if-then 규칙을 만들어 그 규칙에 맞춰 대화할 수는 있습니다. 일라이자와 심심이가 택한 방식이죠. 그리고 수십년 동안 전통적인 컴퓨터 프로그래밍 또한 이러한 규칙 기반 방식을 벗어나지 않았습니다. 1장에서 소개한 세계 최초의 컴퓨터 프로그래머 에이다 러브레이스는 인공지능의 출현 가능성을 최초로 추론하기도 했지만, "기계는 인간이 시키는 일만 한다. 어떤 해석 관계나 진실을 예측할 능력은 ..