통계학 세상

누적분포함수와 분위수(quantile)의 관계

quantile이라고 부르는 것은 잘 알려진 일반적인 정의?라고 한다면 $0

2021. 12. 7. 23:45

분포함수에 관한 중요한 정리(theorem)

1. theorem 1 연속형 확률변수 $X$가 $a

2021. 12. 6. 21:19

누적확률분포함수(cumulative probability distribution)에 대하여

확률변수 X의 누적확률분포함수(cumulative distribution function)라는 것은 모든 실수 x에 대하여 $$F(x)=P(X \leq x)$$으로 정의되는 함수를 말합니다. 누적확률분포함수는 모든 확률변수에 대해 정의할 수 있으며 $$F(x)=P(X \leq x)$$로 하나의 확률이니까 어떠한 실수 x를 넣더라도 0과 1사이의 값을 가집니다. 그리고 그 이름에서도 알 수 있듯이 확률을 누적해서 더한다는 의미를 가져서 증가함수(increasing function)입니다. 일반적으로 알고 있는 normal distribution이나 uniform distribution이나 binomial distribution 같은 여러 분포들은 유일한 누적확률분포함수를 갖습니다. 무슨 말이냐면 누적확률분..

2021. 12. 6. 21:04

의사결정나무(decision tree)의 생성 원리

데이터가 무작위로 섞여있는 상태를 생각해봅시다. 이럴 때 우리는 무작위로 선을 그어 빨간색 데이터와 파란색 데이터를 구분하고자 합니다. 어떻게 그어야 가장 잘 분류를 했다고 말할 수 있을까요? 그러니까 빨간색과 파란색을 어떤 선을 그어서 구분을 해야 가장 잘 구분을 했다고 말할 수 있을까요? 직관적으로 한쪽 영역에는 순수하게 파란색만 존재하고 다른쪽 영역에는 순수하게 빨간색만 존재해야겠죠? 무작위로 섞여있는 불순물한 상태(impurity)에서 순수한 데이터들만 존재하도록 (purity) 영역을 구분하는 것이 데이터를 잘 분류한 것입니다. 다른 말로는 불확실하게 데이터가 섞여있는 상태에서 누구라도 확실하게 빨간색과 파란색을 알아볼 수 있도록 만드는 작업이 분류라는 것입니다. decision tree는 이러..

빅데이터분석기사 3회 대비 실전 벼락치기

1. 정렬하기 data.sort_values( by = (정렬기준이 되는 칼럼) , ascending =True/False) ascending =True이면 오름차순 정렬이고 ascending = False이면 내림차순 정렬 2. series는 대응하는 원소끼리 수학적 계산이 가능 단, 인덱스가 맞지 않으면 계산이 이상해질 수 있음 3. 통계량계산 data.mean() , data.median(), data.sum(), data.count(), data.std(), data.var(), .... 최빈값은 scipy 모듈을 이용해서 구할 수 있음 from scipy.stats import mode mode_data = mode(data) 4. 결측치 찾기 data.isnull().sum()을 통해 결측치가..

2021. 12. 3. 01:37

(빅데이터분석기사) pandas에서 count()를 사용할 때 주의할 점

위에 제시된 데이터프레임의 행의 개수를 구할려면 어떻게 해야할까? 434개인건 명백한데 count함수를 이용하면 다음과 같은 결과가 나온다 왜 이런 결과가 나왔을까? 다음은 데이터프레임에 들어간 boston['RM'].unique() array를 len함수를 이용해서 개수를 세어본 결과이다. 그 비밀은 NA값에 있다. 행의 개수를 세야할 때 pd.DataFrame.count()로 데이터프레임의 행의 개수를 셀 수 있는데 count()함수는 NA가 아닌 값만 세는 특징이 있다. 설명을 보면 non-NA값만 개수를 센다고 나와있다. 그래서 NA값을 세야하는지 세면 안되는지에 따라 주의해서 사용해야한다.