1. normal matrix conjugate transpose AH에 대하여 AAH=AHA를 만족시키는 행렬 A를 normal matrix라고 부른다. 모든 원소가 실수인 행렬이라면 AAT=ATA인 행렬 A를 normal matrix라고 부른다. 2. orthogonal matrix 벡터 x=의 norm이라는 것은 ‖ the construction of the norm of a vector is motivated by a desire to extend the intuitive notion of the len..
1. adjugate matrix 주어진 square matrix A의 모든 원소를 대응하는 cofactor로 바꾸고 transpose한 행렬을 말합니다. 즉 A _{nn} = \left \{ a _{ij} \right \}에 대하여 a _{ij}의 cofactor c _{ij} =(-1) \left \| M _{ij} \right \|로 치환하여 만든 행렬 C _{nn} = \left \{ c _{ij} \right \}의 transpose C ^{T} =adjA= \left \{ c _{ij} \right \} ^{T}를 adjugate matrix라고 부릅니다. 이 행렬이 중요한 이유는 A _{nn}의 inverse matrix를 구하게 만들어줍니다. 즉 A _{nn}의 역..
1. eigenvalue 행렬 A에 대하여 등식 Au= \lambda u을 만족시키는 어떤 실수 \lambda를 A의 eigenvalue라 부르고 이에 대응하는 벡터 u를 eigenvector라고 부릅니다. A _{nn}의 eigenvalue는 n개가 존재하는데 각각의 eigenvalue에 대하여 대응하는 eigenvector는 무수히 많을 수 있습니다. Au= \lambda u를 생각하면 eigenvector u는 선형변환 A에 의해 변환을 하더라도 단순히 길이만 변하거나 방향이 반대만 되는 벡터를 의미합니다. 1) A의 eigenvalue의 곱은 A의 determinant와 같습니다. det(A)= \prod _{i=1} ^{n} \lambda _{i} 2) A..
square matrix의 어떤 특성을 나타내주는 하나의 scalar value로 mapping하는 함수를 말합니다. 구체적으로 determinant가 0이 아니라는 것은 주어진 square matrix가 invertible이라는 것과 동치가 됩니다. 행렬 A=\begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21}& a_{22}& \cdots & a_{2n}\\ \vdots & \vdots & \vdots & \vdots \\ a_{n1}& a_{n2}& \cdots & a_{nn} \end{pmatrix}가 주어질 때 기호로 $$det(A)=\left | A \right |=\begin{vmatrix} a_{11} & a_{12} & \cdots &..
그 이름 Cat가 categorical feature를 뜻하는데 categorical 변수에 최적화되어있다고 논문에서 주장하고 있습니다. “ Two critical algorithmic advances introduced in CatBoost are the implementation of ordered boosting, a permutation-driven alternative to the classic algorithm, and an innovative algorithm for processing categorical features “ 논문에서 언급하는 ordered boosting은 일반적인 boosting이 모든 데이터 row에 대해 gradient 업데이트 과정을 거쳤다면 Catboost는 다음..
LightGBM은 그 이름 Light에서도 알 수 있듯이 computational cost를 줄이기 위해 여러 가지 고급기술?을 도입하였다고 합니다. 그 중 하나인 Gradient based one sided sampling에 대해 직관적으로 이해해봅시다. 위에서 gradient boosting 기법을 다시 한번 생각해보면 각 data row마다 residual을 계산하여 learning rate를 이용한 예측값을 갱신하는 과정이 있었습니다. 이것은 마치 data row가 가지는 gradient로부터 gradient descent를 하는 과정을 연상시키죠. 그런데 Gradient based one sided sampling은 이름에서도 알 수 있듯이 gradient를 기반으로 필요없는 데이터는 버리겠다는..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.