코딩테스트를 위한 R 기초 벼락치기
1. 변수 생성
- 프로그래밍/R 프로그래밍
- · 2021. 10. 30.

1. 변수 생성
1. idempotent matrix $A ^{2} =A$를 만족시키는 행렬 $A$를 말합니다. $A ^{2}$이 정의되어야하므로 기본적으로 idempotent matrix일려면 행렬 곱의 정의로부터 square matrix여야 합니다. 중요한 성질을 몇가지 나열하자면 1-1) idempotent matrix인 $A$가 역행렬을 가진다면 반드시 identity matrix가 됩니다. $A ^{2} =A$에서 $A ^{-1}$를 곱하면 $A=I$가 됩니다. 이 말은 반대로 말하면 idempotent matrix인데 identity matrix가 아니면 역행렬이 존재하지 않는다는 뜻입니다. 1-2) idempotent matrix의 trace는 rank와 같습니다. 1-3) idempotent matrix는..
boosting에 대한 알고리즘 설명이 2가지 정도 있습니다. 주어진 training data set이 있다고 생각해봅시다. 여기서 random하게 sampling하여 sample dataset을 구성합니다. sampling을 하는 과정을 boosting round라고 부릅니다. boosting round에서 구성한 sample dataset을 이용하여 하나의 model A를 학습시킵니다. (처음 가지고 있던 train set으로 학습시키는게 아니고 sampling한 것으로 학습시킴) 이 학습시킨 model A를 가지고 있던 training data set 전체에 대해서 validation을 수행합니다. 일부 뽑은 sample set으로 validation을 하는 것이 아니라 전체 train data s..
bagging방식에서 bootstrap sampling을 한 data set에 적합시키는 model이 decision tree이면 random forest 알고리즘이 됩니다. 그 이름이 forest인데 여러개의 tree들이 모이면 forest가 된다는 점에서 상당히 어울리는 이름이라고 할 수 있습니다. 몇가지 핵심 아이디어를 나열해보면 다음과 같습니다. bootstrap에 기반하므로 tree를 학습시키는 데이터는 동일한 데이터 row가 포함될 수 있습니다. 다음으로 데이터로부터 decision tree를 성장시킬 때 feature에 대해 information gain이 가장 큰 feature를 선택하여 성장시켰는데 random forest는 데이터의 모든 feature의 information gain을 ..
1. order(dimension) m개의 행과 n개의 열을 가지는 행렬 $A$의 order은 $m \times n$을 말합니다. 다른 말로 행렬의 dimension이라고도 부릅니다. dimension은 행렬의 원소의 수와도 관련되어 있습니다. dimension이 $m \times n$인 행렬 $A$의 원소의 수는 $mn$개 있습니다. 2. 행렬의 기본연산 2-1) 행렬의 덧셈이나 뺄셈은 두 행렬의 대응하는 원소의 덧셈이나 뺄셈으로 정의됩니다. 이로부터 덧셈은 두 행렬의 dimension이 동일해야 가능합니다. 수학적으로 $$A _{mn} +B _{mn} = \left \{ a _{ij} +b _{ij} \right \}$$ 2-2) 행렬의 scalar 곱은 행렬의 모든 원소에 해당 scalar를 곱하면..
1. bootstrap sampling 1-1) 주어진 하나의 data set에서 매 회 일부를 random sampling하여 여러 개의 data set을 구성하는 방법입니다. 예를 들어 100개의 data가 존재하는 하나의 data set이 있을 때 5번 30개씩 random dampling한다면 30개, 30개, 30개, 30개, 30개씩 데이터가 존재하는 총 5개의 dataset을 얻게 됩니다. 통계학적으로는 단 1set로 통계량을 추정하면 불확실하게 추정할 수 있는데 여러 set로 통계량을 추정하면 더욱 확실하게 추정할 수 있는 효과를 가집니다. 딥러닝에서는 데이터가 충분하지 않더라도 여러 데이터 set을 활용할 수 있으므로 ensemble효과를 가집니다. 1-2) 보통 여기까지는 다들 알고있지..