Loading...

SQL 연습 - 통계함수 사용할때 주의할 점, limit로 지정한 수 만큼 행 추출

1. 문제 코딩테스트 연습 - 상위 n개 레코드 | 프로그래머스 스쿨 (programmers.co.kr) 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 2. 풀이 DATETIME이 최소가 될때, NAME을 출력하면 되는데 SELECT NAME,MIN(DATETIME) FROM ANIMAL_INS; 이렇게 해가지고, 여기서 NAME만 뽑아오면 되는거 아니냐? SELECT NAME FROM (SELECT NAME,MIN(DATETIME) FROM ANIMAL_INS) A; 근데 이러면 오답이더라고... 왜 그런지 분석을 해봤는데.. SELECT NAME,DA..

데이터분석 전문가(ADP)를 위한 R프로그래밍 기초편2

1. 논리연산 Python이랑 동일함 ==은 서로 같음 != 은 서로 같지 않음 a = b는 a가 b보다 크거나 같다 2. 기본 수학 연산자 + , - , * , / 으로 더하기 빼기 곱하기 나누기 ^ 으로 n제곱 연산 > 5^3 [1] 125 > 5+3 [1] 8 > 5-3 [1] 2 > 5*3 [1] 15 > 12/3 [1] 4 > 12//3 Error: unexpected '/' in "12//" 3. 특수 논리 연산자 ! 은 부정연산 & 는 and 연산 | 은 or 연산 > 3 == 5 [1] FALSE > !(3==5) [1] TRUE > TRUE & FALSE [1] FALSE > TRUE | FALSE [1] TRUE 4. 벡터 인덱..

데이터분석 전문가(ADP)를 위한 R프로그래밍 기초편1

1. 출력함수 print() - 한번에 하나의 객체만 출력 > a print(a) [1] 3 cat() - 여러 항목을 묶어서 연결된 결과 출력 > cat('yun','dae','hyuck') yun dae hyuck > a b cat(a,b) 3 4 2. 할당연산자 a print(a) [1] 3 > a a = 5 > print(a) [1] 5 > a -> 6 Error in 6 6 -> a > print(a) [1] 6 3. 변수 목록보기 ls(), ls.str() 사용가능 > a ls() [1] "a" > ls.str() a : num 3 4. 변수 삭제하기 rm()을 사용 응용하여 rm(list=ls())로 모든 변수 목록 삭제 가능 5. 벡터 생성 c()를 사용 문자, 숫자, 논리값, 변수를 모두..

2021. 12. 13. 00:16

decision tree의 가지치기(pruning)

위와 같이 decision tree는 recursive partitioning을 통해 각 node에서 information gain이 순간 순간 최대가 되는 방향으로 feature를 선택하고 최종 node의 entropy가 0이 될 때까지 구분을 진행합니다. 그런데 딥러닝을 많이 하신 혹시나 이 글을 읽고 계신 분은 짐작하셨겠지만 주어진 training data에 너무나 fitting된다는 단점이 있습니다. 그러니까 새로운 data가 들어올 때 사실 정확한 분류를 해줄지는 미지수라는 점입니다. 그래서 pruning이라는 방법을 수행하여 일반화 능력(generalization performance)을 올려줍니다. 일반화 능력은 딥러닝에서 모델이 train중 한 번도 보지 못한 test data에 대해서도 ..

2021. 12. 11. 21:23

예시를 통해 이해하는 decision tree가 생성되는 원리

현재 딥러닝이 분류문제의 기본 상식으로 알려져있지만 이전에 고전적인 머신러닝에서는 decision tree를 이용하여 분류문제를 해결했습니다. decision tree는 주어진 dataset을 class별로 구별해나가는 하나의 tree를 생성하는 모형인데요. 어떤 식으로 구별해나가는지 그 원리를 예를 들어 설명하겠습니다. 주어진 dataset은 여러개의 feature를 가지고 있겠죠? 예를 들면 다음과 같은 dataset을 생각해봅시다. 현재 D1~D14까지 data를 outlook, temperature, humidity, wind라는 feature를 이용하여 target 변수인 play tennis의 yes or no 여부를 구분해야합니다. 현재 구분하기 전에 yes는 9개 있고 no는 5개 있습니다..

분위수 변환(quantile transformation)

1. quantile transformation의 이론적인 설명 주어진 데이터 $x _{1},x _{2} ,...,x _{n}$의 분포를 그려보니 다루기 힘들거나 마음에 안들어서 분포를 변환할 필요가 있다고 합시다. 주어진 데이터 $x _{1},x _{2} ,...,x _{n}$의 분포를 나타내는 누적확률분포함수 $F(x)$를 먼저 구해봅시다. 그런데 관측된 값으로는 이것을 구할 수 없으니 경험적 분포함수로 누적확률분포함수를 추정합니다. 주어진 데이터 $x _{i}$에 대하여 $F(X) \approx F(x _{i} )$로 추정했다고 합시다. 분포함수에 관한 theorem 1에서 "$X$의 누적확률분포함수가 $F(x)$라면 확률변수 $Y=F(X)$는 $U(0,1)$을 따른다”라고 했습니다. 이것이 무슨 ..