Loading...
2024. 4. 8. 02:19

데이터 속에 숨은 편향

1. introduction 2016, big data’s disparate impact에서 연구 데이터가 좋으면 모형의 결과도 좋고 편향이 많으면 결과도 그럴 것 사회 자체에서 가지는 많은 편향들이 데이터의 형태로 AI 모델에 들어간다 정확히 어디 있는지는 모르겠지만 숨겨져있는 어떤 패턴에 의해 알고리즘을 사용하다보면 소수의 어떤 그룹들이 의도하지 않은 차별을 당한다 2. bias source 2-1) target variable target variable이나 class label을 정의하는 순간부터 bias가 들어갈 수 있다 예를 들어 ‘good employee’는 어떻게 정의해야? 누구는 일을 잘하는 사람, 누구는 이 회사에 오랜 기간 일을 하는 사람, 누구는 다른 사람과 잘 어울리는 사람, 누구..

2023. 12. 21. 02:40

16장 여론조사가 틀리는 이유

1. 여론조사의 비밀 한 여론조사에서 대통령 지지율이 39%로 나타났다. 표본 1000명 중 390명이 지지를 밝힌 셈이다. 그런데 이 숫자는 달라질 수 있는 값이다. 우연히 다른 시민이 여론조사 전화를 받았다면, 380명이나 400명이 지지한다고 답했을 수 있다. 이 여론조사에서 알아내려는 값은 진짜 대통령의 지지율이다. 실제로 정확히 알기란 불가능한 진짜 지지율은 모집단(전체 국민의 대통령 지지율)의 값이므로 모수라고 부른다. 여론조사에서 조사된 값이 '어떻게 얼마나 달라질 수 있었을까' 답을 구하려면 이 모수를 알면 정확히 알 수 있다. 모수 값이 정확히 얼마인지는 알 수 없지만, 어떤 값일 것이라고 가정할 수는 있다. 대통령의 진짜 지지율이 45%였다고 가정하자. 오늘을 무한히 다시 살며 여론조사..

2023. 7. 16. 02:29

데이터 해석학4 -우연오차와 편향-

1. 오차란 건강관리를 위해 매일 체중을 측정하고 기록하는 상황을 생각해보자. 실제 체중을 가능한한 정확하게 기록하고 싶지만, 정확한 체중계더라도 측정을 여러번 반복해보면 체중 값이 매번 조금씩 달라진다. 이런 상황을 '값에 변동이 있다'고 한다. 이 때, 진짜 체중의 값을 참값(true value)이라고 한다. 이 값은 절대 변하지 않는다. 그러므로 매번 체중계에서는 참값과는 다른 값이 표시되고 있다는 것이 된다. 좀 더 정확하게 측정하고 싶다면 입고 있는 옷의 무게도 빼야 한다는 것도 생각해야 한다. 이렇게 참값과 관측한 값의 차이를 오차(error)라고 한다. 2. 오차가 크면 정보가 사라진다 만일 체중계가 측정값이 측정할때마다 +-10kg씩 변동이 있다고 한다면, 매일 체중 변화를 기록하는데 아무..

2023. 7. 10. 01:27

데이터 해석학1 - 관측된 데이터가 항상 정확하지는 않다

1. 관측된 데이터가 항상 정확한 것은 아니다 데이터 분석의 목적은 수집한 데이터를 사람이 해석하고 이용할 수 있는 형태로 변환해서 분석 대상을 이해하거나 예측하는 것이다. 분석 대상으로부터 데이터를 수집하는 것이 관측(observation) 관측은 분석 대상으로부터 정보를 끄집어내는 작업이지만, 관측으로 얻은 데이터가 항상 정확하게 알고 싶은 정보를 반영하고 있지는 않다. 오히려 관측 과정에서 여러 의미로 왜곡된다 이러한 왜곡을 편향(bias)이라고 한다. 2. 쓰레기를 넣으면 쓰레기가 나온다 데이터 분석에서 "쓰레기를 넣으면 쓰레기가 나온다(Garbage in, garbage out.)"는 표현이 있다. 아무리 뛰어난 분석 방법이라도 분석할 데이터의 품질이 나쁘면 분석된 결과도 도움이 되지 않는다라는..

2023. 1. 2. 23:22

비전공자도 이해할 수 있는 AI지식 -데이터를 잘 모아야하는 이유-

1. 데이터, 예측력을 좌우한다 강남역이 막히는지를 예측하기 위해 먼저 학습 데이터부터 살펴봅시다. 여러 조건을 관찰해 학습 데이터를 만들었습니다 계절 요일 시각 날씨 강남역 교통 체증 봄 주말 9시 맑음 교통 원활 봄 주중 8시 맑음 교통 체증 여름 주말 8시 비 교통 원활 가을 주말 13시 비 교통 체증 가을 주중 14시 비 교통 원활 가을 주중 8시 비 교통 체증 겨울 주말 8시 맑음 교통 원활 겨울 주말 9시 맑음 교통 원활 겨울 주말 10시 맑음 교통 원활 겨울 주중 13시 맑음 교통 원활 데이터의 특징부터 자세히 살펴봅시다. 주로 강남역에는 평일 출근 시간대에 교통 체증이 발생합니다. 평일 8시~9시 사이에는 항상 교통 체증이 발생하고, 날씨가 맑든 비가 오든 출근 시간대에는 마찬가지여서 날씨..

2022. 4. 7. 00:29

bias and variance trade off

1. variance variance는 출력의 일관성을 측정한다. 즉 입력값이 달라지더라도 출력이 얼마나 일관적인지 알아보는 값이다. variance가 작을수록 출력이 일관적이다. 보통 간단한 모형일 수록 low variance고 복잡한 모형일수록 high variance low variance일수록 좋은데 왜냐하면 bias만큼 모형을 shift시키면 true value를 정확히 예측하는 좋은 모형을 얻는다. 2. bias bias는 얼마나 평균적으로 true value에 몰려있는가를 측정한다. 착각하면 안되는 것이 단순히 얼마나 몰려있는가가 아니라 true value에 몰려있는가를 측정하는 것 true value에 몰려있을 수록 작다 bias와 variance를 둘 다 줄이는 것이 사실 베스트 3. ‘..