Loading...
2024. 4. 8. 02:19

데이터 속에 숨은 편향

1. introduction 2016, big data’s disparate impact에서 연구 데이터가 좋으면 모형의 결과도 좋고 편향이 많으면 결과도 그럴 것 사회 자체에서 가지는 많은 편향들이 데이터의 형태로 AI 모델에 들어간다 정확히 어디 있는지는 모르겠지만 숨겨져있는 어떤 패턴에 의해 알고리즘을 사용하다보면 소수의 어떤 그룹들이 의도하지 않은 차별을 당한다 2. bias source 2-1) target variable target variable이나 class label을 정의하는 순간부터 bias가 들어갈 수 있다 예를 들어 ‘good employee’는 어떻게 정의해야? 누구는 일을 잘하는 사람, 누구는 이 회사에 오랜 기간 일을 하는 사람, 누구는 다른 사람과 잘 어울리는 사람, 누구..

2024. 1. 12. 01:59

딥러닝 모델 training의 기본 법칙

1. 모델이 high bias인가? >> training set에 대한 성능이 좋은가? 안좋은가? training set에 대한 성능이 좋지 않다면, 더 깊은 network를 쓰거나 hidden layer, hidden unit을 많이 쓴다든지, epoch을 늘려 더 오래 training을 하거나 더 개선된 optimization 알고리즘을 사용하거나 더 좋은, 깊은 network를 사용하는 것은 거의 항상 도움이 되는 반면에 더 오래 training하는 것은 도움이 안되는 경우도 많지만, 시도해보는건 나쁠건 없다 ---------------------------------------------------------------------------------- 중요한건 최소한 high bias를 제거하는..

2023. 7. 16. 02:29

데이터 해석학4 -우연오차와 편향-

1. 오차란 건강관리를 위해 매일 체중을 측정하고 기록하는 상황을 생각해보자. 실제 체중을 가능한한 정확하게 기록하고 싶지만, 정확한 체중계더라도 측정을 여러번 반복해보면 체중 값이 매번 조금씩 달라진다. 이런 상황을 '값에 변동이 있다'고 한다. 이 때, 진짜 체중의 값을 참값(true value)이라고 한다. 이 값은 절대 변하지 않는다. 그러므로 매번 체중계에서는 참값과는 다른 값이 표시되고 있다는 것이 된다. 좀 더 정확하게 측정하고 싶다면 입고 있는 옷의 무게도 빼야 한다는 것도 생각해야 한다. 이렇게 참값과 관측한 값의 차이를 오차(error)라고 한다. 2. 오차가 크면 정보가 사라진다 만일 체중계가 측정값이 측정할때마다 +-10kg씩 변동이 있다고 한다면, 매일 체중 변화를 기록하는데 아무..

2022. 4. 7. 00:29

bias and variance trade off

1. variance variance는 출력의 일관성을 측정한다. 즉 입력값이 달라지더라도 출력이 얼마나 일관적인지 알아보는 값이다. variance가 작을수록 출력이 일관적이다. 보통 간단한 모형일 수록 low variance고 복잡한 모형일수록 high variance low variance일수록 좋은데 왜냐하면 bias만큼 모형을 shift시키면 true value를 정확히 예측하는 좋은 모형을 얻는다. 2. bias bias는 얼마나 평균적으로 true value에 몰려있는가를 측정한다. 착각하면 안되는 것이 단순히 얼마나 몰려있는가가 아니라 true value에 몰려있는가를 측정하는 것 true value에 몰려있을 수록 작다 bias와 variance를 둘 다 줄이는 것이 사실 베스트 3. ‘..

2022. 2. 12. 19:25

data augmentation은 왜 사용해야할까?

1. train data의 문제점 neural network는 데이터를 컴퓨터만 이해할 수 있는 지식의 형태로 녹여넣는 모델 데이터를 통해 패턴을 분석하고자하는 것인데 모델이 데이터를 편식하지 않고 전부 가져가면 가장 좋다 그러나 실제 세상의 데이터들은 bias가 많다 우리가 train data로 얻은 이미지들은 사람이 카메라로 찍은 이미지들이다. 사람이 카메라로 찍었다는 것은 당시 유행?에 따라 사람들이 보기 좋게 찍은 bias된 이미지 그러나 실제 세상은 사람들이 보기 좋게 찍은 구도 말고도 여러가지 많다 실제 test time에서는 어떤 image가 들어올지 모른다 이 말이야 train data는 실제 real data 분포에서 아주 극히 일부 sampling된 데이터라고 볼 수 있다 이게 왜 문제..

2022. 1. 23. 18:44

Computer Vision을 어떻게 구현할까?

1. computer vision을 어떻게 구현할까 앞에서 설명한 아이디어를 바탕으로 computer vision을 구현하는 것은 machine visual perception을 구현하는 것 그 입력으로 실제 세상의 한 모습인 이미지나 비디오같은 visual data를 주는 것이다. visual perception의 종류는? 색깔 인지, 움직임 인지, 사회적 감각 인지 등등 많다 사람의 시각능력을 biological하게 이해하고 이것을 어떤 식으로 구현할지 알고리즘을 연구하는 것도 포함한다 2. 우리의 시각능력은 사실 불완전하다 우리 시각은 단순히 시력이 나쁜 것 말고도 평소에 느끼기 어려운 치명적인 불완전성이 있을 수 있다 이렇게 거꾸로 선 사람을 보면 못생겨보여도 큰 위화감이 안든다 근데 똑바로 세우..