Loading...
2021. 10. 28. 19:42

선형대수학 기본 용어 -초보자편 2-

1. order(dimension) m개의 행과 n개의 열을 가지는 행렬 $A$의 order은 $m \times n$을 말합니다. 다른 말로 행렬의 dimension이라고도 부릅니다. dimension은 행렬의 원소의 수와도 관련되어 있습니다. dimension이 $m \times n$인 행렬 $A$의 원소의 수는 $mn$개 있습니다. 2. 행렬의 기본연산 2-1) 행렬의 덧셈이나 뺄셈은 두 행렬의 대응하는 원소의 덧셈이나 뺄셈으로 정의됩니다. 이로부터 덧셈은 두 행렬의 dimension이 동일해야 가능합니다. 수학적으로 $$A _{mn} +B _{mn} = \left \{ a _{ij} +b _{ij} \right \}$$ 2-2) 행렬의 scalar 곱은 행렬의 모든 원소에 해당 scalar를 곱하면..

2021. 10. 27. 18:24

bagging이란?

1. bootstrap sampling 1-1) 주어진 하나의 data set에서 매 회 일부를 random sampling하여 여러 개의 data set을 구성하는 방법입니다. 예를 들어 100개의 data가 존재하는 하나의 data set이 있을 때 5번 30개씩 random dampling한다면 30개, 30개, 30개, 30개, 30개씩 데이터가 존재하는 총 5개의 dataset을 얻게 됩니다. 통계학적으로는 단 1set로 통계량을 추정하면 불확실하게 추정할 수 있는데 여러 set로 통계량을 추정하면 더욱 확실하게 추정할 수 있는 효과를 가집니다. 딥러닝에서는 데이터가 충분하지 않더라도 여러 데이터 set을 활용할 수 있으므로 ensemble효과를 가집니다. 1-2) 보통 여기까지는 다들 알고있지..

2021. 10. 27. 18:05

선형대수학 기본 용어 -초보자편 1-

1. matrix 정의 1-1) 위키피디아에서는 행렬을 행과 열에 수나 기호 수식 등을 나열한 직사각형의 배열이라고 정의하고 있습니다. 예를 들어 $\begin{pmatrix} 1 & 9& -13\\ 20 & 5& 16 \end{pmatrix}$ 1-2) m개의 행과 n개의 열을 가지는 행렬 A는 수학적으로 $A _{mn} = \left \{ a _{ij} \right \}$라고 표현합니다. 여기서 $a _{ij}$는 행렬 A의 $i$번째 행에 있고 동시에 $j$번째 열에 위치하는 원소를 의미합니다. 명백하게 행과 열의 수를 알 수 있다면 $A = \left \{ a _{ij} \right \}$으로 행,열의 수를 생략하기도 합니다. $a _{ij} $는 간혹 $A[i,j]$나 $A _{i,j}$등등으로..

2021. 10. 10. 13:44

정보이론의 기초3 -KL divergence란?-

1. KL divergence에 대하여 The Kullback–Leibler divergence (or information divergence, information gain, or relative entropy)은 두 확률분포를 비교하기 위한 방법이다. 데이터의 진짜 확률분포(true distribution)을 P라 하고 데이터가 따를 것 같다고 생각하는 우리가 예측한 확률분포 모형이 Q라한다면 Q에 대한 P의 The Kullback–Leibler divergence은 $$D _{KL} (P||Q)=E(log \frac{P}{Q} ) _{P} = \sum _{x \subset P} ^{} P(x)log \frac{P(x)}{Q(x)}= \sum _{x \subset P} ^{} P(x)logP(x)-..

2021. 10. 9. 17:32

정보이론의 기초2 -entropy란?-

1. Entropy는 무엇인가 self information이 하나의 사건에 대한 정보량이면 Entropy는 전체 확률분포가 가지는 정보량이라고 볼 수 있다. 확률변수 $M$의 Entropy는 $M$이 가질 수 있는 모든 사건의 평균적인 정보량으로 $M$의 정보량의 기댓값이다. $$H(M)=E(I(M))= \sum _{m} ^{} I(M)P(M=m)=- \sum _{m} ^{} P(M=m)logP(M=m)=-E(log(P(M))$$ 확률분포가 가지는 불확실성의 측도이고 확률분포가 가지는 모든 정보량이다. 2. 예시로 알아보는 Entropy 기계 X는 A, B, C, D를 각각 0.25의 확률로 출력 반면, 기계 Y는 A : 0.5, B: 0.125, C: 0.125, D: 0.25의 확률로 출력한다고 가..

정보이론의 기초1 -정보량이란?-

1. 정보이론의 핵심 아이디어 잘 일어나지 않는 사건은 자주 발생하는 사건보다 정보량이 많다. 예를 들어보면 ‘아침에 해가 뜬다’는 정보는 누군가에게 알려줄 필요가 없을 정도로 정보 가치가 없다. 그렇지만 ‘오늘은 4시에 피어세션을 시작한다.’는 정보는 꼭 알아야한다는 측면에서 정보량이 많다고 말할 수 있다. 기본적으로 자주 발생하는 사건은 낮은 정보량을 가진다. 100퍼센트 발생이 보장된 사건은 내용에 무관하게 전혀 정보가 없다 덜 자주 발생하는 사건은 더 높은 정보량을 가진다 독립인 사건은 추가적인 정보량을 가진다. 동전을 던져 앞면이 두 번 나오는 사건에 대한 정보량은 동전을 던져 앞면이 한번 나오는 사건보다 정보량이 두배 많다 2. Shannon의 self information 확률변수 M이 어떤..