Loading...
2021. 11. 29. 21:27

Numpy 기초 5편

1. element wise operation numpy는 단순 list와는 다르게 기본적으로 array끼리 사칙연산을 지원함 기본적으로는 *,+,-는 대응하는 원소끼리 연산함 dot product는 일반적인 행렬곱으로 a.dot(b) , a@b transpose는 a.T , a.transpose() 2. broadcasting shape가 다른 배열 간 연산도 지원함 scalar가 matrix의 모든 원소에 대응하여 연산함

2021. 11. 28. 20:18

Numpy 기초 3편

1. np.arange(n) np.arange(n)은 0~n-1까지 한 행으로 array 생성 list의 range는 step size에 floating point가 불가능하나 arange()는 가능 보통 reshape와 같이 사용함 arange로 array를 만들고 원하는 shape로 바꾸기 위해 reshape를 사용 2. np.zeros() & np.ones() np.zeros()는 0으로 가득 찬 ndarray np.ones()는 1로 가득찬 ndarray 3. np.empty() np.empty()는 비어있는 ndarray를 생성한다 그런데 일반적으로 배열을 생성할때는 메모리 공간을 싹 비우고(initialization) 잡는데 np.empty는 그냥 메모리 공간을 잡는다. 그래서 잡은 공간에 들..

2021. 11. 25. 23:22

Pandas 기초 6편

1. describe() numeric type을 요약해줌 문자형 데이터는 알아서 요약을 안해줌 2. unique() (series).unique() 해당 series의 중복을 제거하고 유일한 값들을 반환 3. 기본 수학 연산 sum,mean,min,max,count,var,median 등 기본 연산 지원 axis 가능 4. isnull() df.isnull()은 NaN인 곳을 찾아 True 아니면 False로 df.isnull().sum() 각 변수별 NaN의 개수를 구할 때 자주 씀 5. sort_values() df.sort_values( (by=)[열],ascending=) 지정된 열 기준으로 sorting 6. corr(),cov() .corr() 두 열간 상관계수 .cov() 두 열간 공분산 ..

2021. 11. 24. 22:57

Pandas 기초 4편

1. drop df.drop((index_number))로 index_number에 해당하는 행 제거 인덱스 리스트를 넣어 지정하는 행 제거(fancy index) axis 연산도 가능 axis=1로 해서 city와 state에 해당하는 column을 제거함 --------------------------------------------------------------------------------------------------------------------------- 2. dataframe operation index를 기준으로 연산을 수행함 겹치는 index가 없는 경우에는 NaN을 집어넣음 dataframe은 column index도 고려함 fill_value= 으로 겹치는 부분이 없는 곳이..

2021. 11. 24. 22:41

Pandas 기초 3편

1. delete column 1-1) del del df[‘debt’] 로 ‘debt’ 열을 삭제함 del은 열의 메모리 주소를 삭제함 1-2) df.drop() df.drop((열이름),axis=)으로도 삭제가 가능하다 그러나 얘는 원본을 변화시키진 않음 새로 할당시켜야함 2. column selection 1개 열을 선택할 때는 df[‘account’]로 문자열만 들어가지만 2개 이상의 열을 선택할때는 반드시 리스트가 들어가야한다 예를 들어 df[ [‘account’,’street’,’state’] ] 위 그림을 보면 1개 열을 선택하더라도 df['account']와 df[['account']] 차이가 있다 전자는 series로 가져오지만 후자는 dataframe으로 가져온다 ------------..

2021. 11. 23. 23:37

Pandas 기초 2편

1. dataframe data table 전체를 나타내는 object Series의 모임 row index 뿐만 아니라 column index도 가진다 각 column은 서로 다른 데이터 타입이 될 수 있다 기본적으로 “column_name:(data)” 형태의 dict type을 pd.DataFrame(dict,columns=[column명])에 넣어 만든다 columns=에 특정 column만 지정할 수도 있고 새로운 column을 추가할수도 있다 raw_data에서 넣고 싶지 않은 column은 지정하지 않으면 데이터프레임에 안들어간다 물론 raw_data에 data가 없는 column명을 넣을 수도 있는데 그러면 데이터프레임에 NaN 들어감 데이터프레임에서 하나의 열만 선택하는 방법으로 df[(..