Loading...
2024. 3. 3. 23:57

KorQuAD 데이터셋에 대한 개요

1. introduction 영어 MRC의 대표적인 dataset은 SQuAD가 있는데 KorQuAD는 LG CNS에서 개발한 데이터셋으로 이와 비슷하게 구성함 그래서 영어에서 쓰이는 모델을 그대로 가져와서 한국어에도 쓸 수 있게 도와준 데이터셋 LG CNS가 AI 언어지능 연구를 위해 공개한 질의응답/기계독해 한국어 데이터셋으로 인공지능이 한국어 질문에 대한 답변을 하도록 필요한 학습 데이터셋 1550개 위키피디아 문서에 대해 하위 10649건 문서들과 크라우드 소싱으로 만든 63952개의 질의응답 쌍으로 구성 train 60407, val 5774, test 3898 3등분으로 나뉨 라이센스가 자유로워 누구나 데이터를 내려받고, 학습한 모델을 제출하고 공개된 리더보드에 평가를 받을 수 있음 객관적인 ..

2022. 9. 20. 02:49

비전공자도 이해할 수 있는 AI 지식3 -인공지능 발전에 영향을 준 요소들-

1. 데이터는 인공지능의 원유 2012년부터 떠오르는 10대 기술로 첫번째를 빅데이터로 선정할 정도로 이미 가장 중요한 기술로 선정되었는데, 빅데이터가 도대체 무엇이냐?라고 물으면 대답하기 쉽지 않았다 단순히 많은 데이터를 모아두는 것이 왜 바이오, 화학, 식량보다 중요한 기술이냐는 것이다. 당시에는 그만큼 데이터를 제대로 활용할 수 있는 기술이 부족했다. 1907년 프랜시스 골턴이 에 논문 한 편을 제출하는데.. 논문 내용 중에 커다란 황소 한마리를 도축하고 고기 중량을 알아맞히는 이벤트를 진행했다고 한다. 관객들은 6펜스를 내고 티켓에 이름, 주소, 추정 무게등을 기입하여 제출했는데 800여명이 참여하였고 골턴은 이들의 중앙값을 구해보았다고 한다 중앙값은 547kg이었는데 실제로 도축한 고기의 무게는..