Loading...
2024. 4. 8. 02:19

데이터 속에 숨은 편향

1. introduction 2016, big data’s disparate impact에서 연구 데이터가 좋으면 모형의 결과도 좋고 편향이 많으면 결과도 그럴 것 사회 자체에서 가지는 많은 편향들이 데이터의 형태로 AI 모델에 들어간다 정확히 어디 있는지는 모르겠지만 숨겨져있는 어떤 패턴에 의해 알고리즘을 사용하다보면 소수의 어떤 그룹들이 의도하지 않은 차별을 당한다 2. bias source 2-1) target variable target variable이나 class label을 정의하는 순간부터 bias가 들어갈 수 있다 예를 들어 ‘good employee’는 어떻게 정의해야? 누구는 일을 잘하는 사람, 누구는 이 회사에 오랜 기간 일을 하는 사람, 누구는 다른 사람과 잘 어울리는 사람, 누구..

2023. 1. 2. 23:22

비전공자도 이해할 수 있는 AI지식 -데이터를 잘 모아야하는 이유-

1. 데이터, 예측력을 좌우한다 강남역이 막히는지를 예측하기 위해 먼저 학습 데이터부터 살펴봅시다. 여러 조건을 관찰해 학습 데이터를 만들었습니다 계절 요일 시각 날씨 강남역 교통 체증 봄 주말 9시 맑음 교통 원활 봄 주중 8시 맑음 교통 체증 여름 주말 8시 비 교통 원활 가을 주말 13시 비 교통 체증 가을 주중 14시 비 교통 원활 가을 주중 8시 비 교통 체증 겨울 주말 8시 맑음 교통 원활 겨울 주말 9시 맑음 교통 원활 겨울 주말 10시 맑음 교통 원활 겨울 주중 13시 맑음 교통 원활 데이터의 특징부터 자세히 살펴봅시다. 주로 강남역에는 평일 출근 시간대에 교통 체증이 발생합니다. 평일 8시~9시 사이에는 항상 교통 체증이 발생하고, 날씨가 맑든 비가 오든 출근 시간대에는 마찬가지여서 날씨..