Loading...
2022. 12. 7. 03:44

비전공자도 이해할 수 있는 AI지식 -컴퓨터는 어떻게 사람의 목소리를 이해하는가-

1. 음성인식은 생각보다 어려운 일이다 '음성인식'부터 살펴보겠습니다. 스피커는 어떻게 인간의 말을 알아듣는걸까요? 대번에 잘 알아듣는 것처럼 보이지만 사실 인간의 말을 알아듣는 과정은 생각보다 훨씬 복잡하고 정교합니다. 사람은 보통 문자보다 말을 먼저 익히기 때문에 음성인식이 문자인식보다 쉽지 않을까 생각할 수도 있지만 오히려 반대입니다. 우리가 모국어가 아닌 언어를 성인이 되어서 배울 때는 말보다는 글이 더 쉽게 느껴집니다. 컴퓨터도 마찬가지입니다. '모라벡의 역설'을 떠올리면 이해가 쉽습니다. 말을 배우는 것은 다섯 살배기 아이도 쉽게 하지만 컴퓨터는 그렇게 하지 못합니다. 더구나 컴퓨터 입장에서는 음성 언어의 가변성과 음성 자체에 내재하는 소음 등 여러 이유로 음성 인식이 문자인식보다 훨씬 더 까..

2022. 6. 28. 12:32

time series data의 cross validation에 대한 여러가지 고찰

time series data는 일반적인 cross validation으로 검증을 수행해도 무리가 없을까? 일반적인 cross validation을 수행하면 과거 미래 데이터가 무작위로 섞일 것이다. 미래를 예측하기 위해서는 그 이전의 정보를 사용하여 예측하는 것이 기본인데 무작위로 뒤섞인다면 당연히 예측 성능이 떨어질 것이다. 1. ordering by time 기본적인 방법 중 하나는 데이터를 시간 순서대로 정렬하고 validation set을 train set보다 미래에 있는 것으로 선택하고 test set도 validation set, train set보다 미래에 있는 데이터를 선택하는 것이다. 이게 가장 흔하고 자주 사용하는 방법같다 그러나 이 방법이 안좋은 점은 test set은 무작위로 선택..

2022. 6. 24. 21:04

정형데이터에서 결측치를 처리하는 방법

boston data에서 임의로 15~25% 결측치를 생성했음 1. pattern을 통한 결측치 처리 결측치의 pattern을 대략적으로 파악하면 어떤 식으로 처리할지 감이 올 수 있음 x축을 개별 변수, y축을 변수의 value로 하고 heatmap을 그림 전체 dataset의 x축을 feature, y축을 feature의 value라고 하여 pattern을 그려보면 왼쪽과 같이 random하게 결측치가 있을 수 있고 오른쪽 처럼 어떤 규칙을 보일수도 있음 위와 같이 boston dataset의 pattern을 그려보니 결측치가 random하게 분포하는 것 같음 random하게 15~25% 결측치를 만들었으니까 가상으로 만든 dataset의 pattern이 위와 같다면 결측치가 어떤 규칙을 가지고 분포..

2022. 2. 4. 21:52

naive bayes classifier의 문제점을 보완하는 Laplace smoothing

1. naive bayes classifier의 문제점 만약 test sentence d내에 존재하는 특정 단어 $w_{i}$가 train data에서 특정 class C=c내에 1번도 존재하지 않으면 $P(w_{i}|c)$는 0이므로 test의 sentence d는 다른 단어의 조건부확률과 무관하게 무조건 P(c|d)=0이다. 다른 단어는 다 존재하지만 단 하나의 단어만이라도 이런 경우가 발생하면 무조건 예측확률이 0이라는 사실이 굉장히 억울한 부분이다. 2. laplace smoothing 특정 class C=c에 test내 특정 단어 $w_{i}$가 속할 조건부확률을 laplace smoothing을 이용하여 구하면 그러니까 원래 구하는 식에 smoothing 상수 k를 더해준 것 상수 k는 확률에..

조건부독립의 성질

만약 $w_{1},w_{2},...w_{n}$이 $c$가 주어질 때 서로 조건부독립이라면 \[P(w _{1},w _{2},....,w _{n}|c)= \prod _{i=1} ^{n} P(w _{i} |c)\]이다? $n=2$라고 한다면 \[P(w _{1}|w _{2} ,c)=P(w _{1} |c)\]이므로 \[\frac{P(w _{1} ,w _{2} ,c)}{P(w _{2} ,c)}=\frac{P(w _{1} ,c)}{P(c)}\] 식을 정리하면 \[\frac{P(w _{1} ,w _{2} ,c)}{P(c)}= \frac{P(w _{1} ,c)}{P(c)}\frac{P(w _{2} ,c)}{P(c)}\] 그러므로 \[P(w _{1},w _{2}|c)=P(w _{1} |c)P(w _{2} |c)\] $n=..

2022. 1. 30. 02:59

회귀분석에서 회귀계수는 유의하지만 절편이 유의하지 않다면..?

1. 문제 회귀분석을 수행할 때 회귀계수는 유의하더라도 절편이 유의하지 않다면 어떻게 해야할까? intercept가 유의하지 않고 회귀계수가 유의하니까 추정된 회귀식을 y = 1.5295x라고 적어야할까? 아니면 y = 1.5295x + 6.4095라고 적어도 괜찮은 걸까? 정답은 후자다. 절편을 아무 근거없이 함부로 제거하면 안된다 2. 절편은 어떤 의미를 가지는가? y = a+bx라는 회귀식에서 절편 a는 어떤 의미를 가질까? 절편이라는 것은 설명변수의 위치에 의존하게 된다. '설명변수 x=0일 때 반응변수 y의 값이 상수 a와 같다' 설명변수 x가 0일때라는 점에서 절편이 갖는 의미가 생각보다 중요하지 않다 설명변수 x가 0일때 의미없다면 절편도 아무런 의미를 갖지 않게 된다. 예를 들어 생각해보면..