Loading...
2024. 4. 20. 00:24

상관관계는 인과관계가 아니다 - confounder model(교란변수 모델)

0. 개요 조건부확률은 두 변수간의 상관정도를 측정해주는 통계적 해석을 제공하지만 데이터가 충분히 많아지더라도 이것이 인과관계를 가진다고 추론할 수는 없다. 조건부확률에 기반한 모형은 보통 확률분포 변화에 민감하다 무슨말이냐면 훈련된 모형에서 정확도가 매우 높더라도 테스트 모형에서 분포(데이터)가 조금이라도 변하면 성능이 떨어질 수 있다. 인과관계에 기반한 예측모형은 테스트할 때 데이터의 변화에 강건하여 성능변화가 거의 없다 조건부확률은 교란변수(중첩요인,confounding factor)의 영향에 의해 높게 측정될 수 있다 예를 들어 키가 클 수록 지능지수가 큰 경향이 있는데 일반적으로는 무관하다는 것을 안다 데이터 분석하면 저런 경향이 나오는데 나이라는 변수의 영향이 있어서 그렇다. 두 변수에 동시에..

2024. 4. 19. 04:03

Unity 기본5 - C# 배열에 대해

1. 배열 데이터를 저장하는 공간인 변수 그런데 데이터 하나당 변수를 하나씩 만들면 비효율적 데이터가 100개면 100개의 변수를 모두 만들어 관리하기는 어렵다. 하나의 이름으로 여러개의 데이터를 모아 저장하는 자료구조 1) 선언하는 방법? int[] a; a는 정수형의 배열 혹은 string[] a; 하면 문자열의 배열 (자료형)[] a; 해서 해당 자료형의 배열을 선언 선언만 되었지, 아무런 값도 지정되어 있지 않아 출력하면 에러남 2) 초기화가 필요함 a라는 이름을 가진 int배열에 5개의 정수가 들어갈 배열이라고 초기화 int[] a = new int[5]; 정수가 들어갈 수 있는 방 5개짜리 배열을 만들고 이름을 a라고 한다 이렇게 초기화된 상태면, 출력할때 int배열인 것을 인식함 zero b..

2024. 4. 19. 03:02

Pytorch에서 padding sequence vs. packed sequence 차이 이해하고 구현하기

https://heekangpark.github.io/ml/shorts/padded-sequence-vs-packed-sequence Padded Sequence vs. Packed Sequence | Reinventing the Wheel 문제상황 자연어와 같은 sequence 데이터들을 다루다 보면 짜증나는 요소가 하나 있는데, 바로 그 길이가 일정하지 않다는 것이다. 이미지 데이터의 경우 crop이나 resize 등으로 가로 세로 크기를 맞 heekangpark.github.io 자연어같은 sequence 데이터는 input들의 길이가 다 다른 경우가 보통이기 때문에 이것을 어떻게 처리할 지 고민할 필요가 있다. 이미지는 crop이나 resize로 이미지 크기를 전부 맞추고 진행하면, batch로 ..

2024. 4. 18. 02:10

Unity 기본4 - 반복문 while, for문

특정 조건을 만족할때, 원하는 명령을 반복하도록 하는 명령 1. while 특정 조건을 만족하는 동안 반복문 실행 while (조건문) {조건문이 참일때 실행} if문 처럼 조건문이 참일 때 실행하는 문장이 1문장이면, {}는 생략 가능하나, 쓰는게 좋다 using System.Collections; using System.Collections.Generic; using UnityEngine; public class HelloWorld : MonoBehaviour { // Start is called before the first frame update void Start() { int i = 0; while (i < 10) { Debug.Log(i); i += 2; } } // Update is cal..

2024. 4. 17. 23:42

Pytorch에서 learning rate scheduler 사용하는 방법 알기

1. 개요 learning rate는 model train 성능을 결정하는 중요한 요소 동일한 learning rate를 사용하여 처음부터 끝까지 학습을 할 수도 있지만, 초반에는 큰 learning rate를 사용하여 빠르게 최적값에 가다가, 후반에는 작은 learning rate를 사용하여 미세조정을 할 수도 있다. 기본적인 원리는 지정한 epoch 스텝마다 learning rate에 gamma를 곱한 값을 새로운 learning rate라 하고 다음 epoch을 돌린다. 2. 기본적인 사용법 Pytorch에서는 다양한 learning rate scheduler를 지원하고 있다. 기본적으로 학습시에 batch마다 optimizer.step()을 하고 나서, batch마다 learning rate를 바..

2024. 4. 17. 23:13

object detection task, SPP Net, R-CNN, YOLO 간단하게 알아보기

1. Detection 이미지 안에서 원하는 물체에 대한 bounding box를 찾는 문제 가장 먼저 나온 해법으로 R-CNN이 있다 이미지 안에서 Selective search? 등으로 2000개 정도 region을 추출함. 적절하게 동일한 크기로 바꾸고 deeplearning(AlexNet)을 이용하여 feature map을 각각 추출함 그러면 각각에 대하여 svm등으로 무엇인지 분류하면 되겠지 2. SPP Net 처음 나온 R-CNN은 딱 보면 문제가 많았다. 예를 들면 2000개 Bounding box 찾는것도 일이고 , 1개의 input 이미지에 대해 2000개 각각을 deep learning하니까 2000번 돌려야 1개의 input 이미지에 대해 결과를 얻는다는 사실에 2000번 돌리는 것도..