Loading...
2024. 4. 24. 23:33

문장 생성의 성능평가 지표2 - bleu score

1. precision과 recall의 문제점 정답문장에 대해 2개의 모델로 예측문장을 얻었다고 해보자.   두번째 모델로 만든 문장의 경우 모든 단어가 정답문장 단어와 매칭이 되는데 순서가 전혀 맞지 않는다는 것이 문제다.  그럼에도 불구하고 precision과 recall은 100% 때로는 언어에서 순서는 매우 중요한데 단어만 맞췄다고 완벽한 번역이라고 볼수있을까? precision과 recall, f-measure는 계산방식으로부터 알 수 있겠지만  오직 부합하는 단어의 수에만 집중하기 때문에 순서정보를 전혀 반영하지 않는다는 것이 문제다.  2. introduction  bleu score는 순서를 반영하지 않는다는 precision과 recall의 문제점을 개..

2024. 4. 24. 00:34

문장 생성의 성능평가 지표1 - precision and recall, F-score

1. precision and recall translation 후에 생성된 문장이 정확한지 평가할 필요가 있다. 기본적으로 단어를 생성하는 방법은 target 각 단어별 실제 정답과의 softmax loss가 최소화되게 만든다. test data에 대해서도 예측된 단어와 정답인 단어의 softmax loss로 분류 정확도를 계산한다. 이런 논리에 기반하여 정답문장과 예측문장사이 각 단어별 matching count로 정확도를 평가하는 방법을 생각할 수 있다. I love you라는 정답문장을 출력해야하는데 oh I love you를 출력했다고한다면 각 matching count=0이니까 정확도는 0%이다. 그런데 크게 떨어지는 번역품질이라고 보기 어렵다 나쁘지 않은 번역.. 그러니까 0%라고 보기 어렵..

2022. 12. 31. 01:14

비전공자도 이해할 수 있는 AI지식 -기계는 언어를 이해할 수 없는가-

1. 언어를 이해한다는 것은 무슨 말인가 그렇다면 이루다도 GPT같은 언어 생성 모델을 기반으로 하는 챗봇이었을까요? 컨퍼런스에서 이루다의 기술을 발표한 자료에 따르면, 이루다는 언어 생성 모델을 활용한 것이 아닙니다. 이루다에 적용한 것은 대화를 이해하고 여러 개의 응답 중 가장 적절한 응답을 선택하는 이해 모델에 좀 더 가깝습니다. 이루다의 원리를 이해하기 위해서는 먼저 언어를 이해한다는 것이 과연 무엇을 의미하는지부터 알아야합니다. "백두산의 높이는 얼마야?" 검색엔진에 질문을 입력하면 바로 정답을 찾아주는 경우가 있습니다. "백두산의 높이는 얼마야?"라고 질문하면 관련 문서에서 2744m라고 정답을 바로 찾아냅니다. 정답을 한번에 찾아낸다는 점에서 유사한 문서를 찾아내는 검색엔진과는 조금 다른 기..

2022. 12. 17. 20:52

비전공자도 이해할 수 있는 AI지식 -외국어를 공부안해도 되는 시대는 올 수 있을까-

1. 언어의 규칙을 파악하고자 하다 지금까지 살펴본 내용을 정리해보겠습니다. 기계번역은 오래전 등장해 큰 관심을 받았지만, 뚜렷한 성과로 이어지지 못하면서, 오랜 침체기에 빠져있었습니다. 구글이 통계에 기반한 기계번역 서비스를 출시한 것은 2006년이었지만, 당시만 해도 그리 좋은 결과를 보여주진 못했습니다. 시스트란이 1968년부터 시도했던 규칙 기반과 큰 차이가 없었죠. 특히 영어-한국어 번역처럼 언어 구조가 많이 다른 경우에는 형편없는 결과를 보여주었습니다. 그나마 어순이 서로 비슷한 일본어-한국어 번역에서 규칙 기반으로 어느 정도 품질을 보장할 수 있었습니다만 이런 경우는 일부에 불과했죠. 우리가 학창 시절에 언어를 배울 때의 기억을 떠올려봅니다. 먼저 명사, 동사, 형용사 등을 구분하는 법을 배..

2022. 12. 17. 03:07

비전공자도 이해할 수 있는 AI지식 - 딥러닝은 기계번역을 어떻게 바꾸었는가-

1. 신경망 기반, 자연스러운 번역의 시작 2010년대 들어 드디어 딥러닝이 주목받기 시작합니다. 먼저 구문 기반으로 분석하는 방식에 딥러닝을 적용해봅니다. 그리고 우리나라의 조경현 교수가 몬트리올대학교에서 박사 후 과정 중에 성공적인 결과를 넀습니다. 이때부터 바야흐로 딥러닝을 본격적으로 기계번역에 도입합니다. 이후에는 구문 단위를 넘어 아예 문장 전체에 딥러닝을 적용하죠. 이를 신경망 기반 기계번역(Neural Machine Translation)이라고 합니다. 그렇다면, 신경망 기반 기계번역은 어떻게 작동할까요? 앞서 단어 기반에서 구문 기반으로 확장하면 보다 자연스러운 문장이 나온다고 얘기한 바 있습니다. 신경망 기반은 한발 더 나아가 문장 전체를 마치 하나의 단어처럼 통째로 번역해서 훨씬 더 자..

2022. 12. 13. 02:03

비전공자도 이해할 수 있는 AI지식 -언어의 모든 규칙을 알 수 있을까-

1. 언어의 모든 규칙을 찾아 번역하다 기계번역을 대표하는 회사로 1968년 설립한 시스트란이 있습니다. 이제는 50년이 훌쩍 넘는 역사를 자랑하는 이 회사는 헝가리 출신의 컴퓨터 과학자 피터 토마 박사가 설립했습니다. 초창기 기계번역을 연구해 2000년대 초반까지는 야후!와 구글에 제품을 납품할 정도로 세계 최고의 번역 품질을 자랑했습니다. 시스트란은 규칙 기반의 기계번역(rule-based machine translation)을 이용했습니다. 언어학자들이 일일이 정의한 규칙을 수십 년간 쌓아올렸고, 이를 이용해 당시 기준으로는 가장 높은 품질의 번역 서비스를 제공했습니다. 하지만 쉽게 예상할 수 있듯 규칙 기반에는 한계가 있습니다. 규칙을 아무리 세워도 언어의 무궁무진한 변화를 결코 따라갈 수 없기 ..