Loading...
2021. 11. 23. 23:37

Pandas 기초 2편

1. dataframe data table 전체를 나타내는 object Series의 모임 row index 뿐만 아니라 column index도 가진다 각 column은 서로 다른 데이터 타입이 될 수 있다 기본적으로 “column_name:(data)” 형태의 dict type을 pd.DataFrame(dict,columns=[column명])에 넣어 만든다 columns=에 특정 column만 지정할 수도 있고 새로운 column을 추가할수도 있다 raw_data에서 넣고 싶지 않은 column은 지정하지 않으면 데이터프레임에 안들어간다 물론 raw_data에 data가 없는 column명을 넣을 수도 있는데 그러면 데이터프레임에 NaN 들어감 데이터프레임에서 하나의 열만 선택하는 방법으로 df[(..

2021. 11. 23. 23:11

Pandas 기초 1편

1. pandas 개요 구조화된 데이터 처리를 지원하는 파이썬계의 엑셀 numpy와 통합하여 통계분석, 인덱싱, 연산, 전처리 등 지원 import pandas as pd로 호출 2. 데이터 프레임 기본 용어 데이터의 전체 집합이 data table, sample 변수는 feature, column, attribute, field 각 행, 개별 데이터들은 instance, row, tuple 3. read_csv pd.read_csv(‘파일위치’,sep=,header=(첫줄을 데이터로 보면 False 변수로 보면 True) df.head(n=) n행만큼 데이터 출력, 기본값은 n=5 sep=’\s+’에서 \s는 single space로 빈칸을 뜻하고 +로 빈칸수가 무작위로 나올때를 뜻함. 데이터가 나눠진..

2021. 11. 23. 18:00

dictionary를 정렬하는 방법?

1. 문제 개발자가 사용하는 언어와 언어 선호도를 입력하면 그에 맞는 직업군을 추천해주는 알고리즘을 개발하려고 한다 아래 표는 5개 직업군 별로 많이 사용하는 5개 언어에 직업군 언어 점수를 부여한 표이다. 예를 들면 SQL의 SI 직업군 언어 점수는 3점이지만 CONTENTS 직업군 언어 점수는 2점입니다. SQL의 HARDWARE, PORTAL, GAME 직업군 언어 점수는 0점입니다. 직업군 언어 점수를 정리한 문자열 배열 table, 개발자가 사용하는 언어를 담은 문자열 배열 languages, 언어 선호도를 담은 정수 배열 preference가 매개변수로 주어집니다. 개발자가 사용하는 언어의 언어선호도 * 직업군 언어 점수의 총합이 가장 높은 직업군을 return하도록 solution 함수를 완..

2021. 11. 23. 00:49

탐욕법 활용 기초편

1. 문제 https://programmers.co.kr/learn/courses/30/lessons/12982 코딩테스트 연습 - 예산 S사에서는 각 부서에 필요한 물품을 지원해 주기 위해 부서별로 물품을 구매하는데 필요한 금액을 조사했습니다. 그러나, 전체 예산이 정해져 있기 때문에 모든 부서의 물품을 구매해 줄 수는 programmers.co.kr S사에서는 각 부서에 필요한 물품을 지원해 주기 위해 부서별로 물품을 구매하는데 필요한 금액을 조사했습니다. 그러나, 전체 예산이 정해져 있기 때문에 모든 부서의 물품을 구매해 줄 수는 없습니다. 그래서 최대한 많은 부서의 물품을 구매해 줄 수 있도록 하려고 합니다 물품을 구매해 줄 때는 각 부서가 신청한 금액만큼을 모두 지원해 줘야 합니다. 예를 들어 ..

2021. 11. 22. 23:17

가장 좋은 loss function은?

1. Huber loss MSE와 MAE가 모두 바람직하지 않은 경우도 많다. 만약 90%의 데이터가 매우 큰 값 예를 들어 200, 10% 데이터가 0~10정도 값을 가진다고 하면 MSE는 10%의 작은 값을 가지는 0~10에 맞출려고 하고 MAE는 90%의 데이터가 있는 200에 맞출려고 한다. MSE는 식 자체가 평균을 구하는 것에 목적이 있고 MAE는 중앙값을 구하는 것에 목적이 있다. 수학적으로 MSE를 가장 최소화하는 하나의 예측치는 평균이고, MAE를 가장 최소화하는 하나의 예측치는 중앙값이다. 이런 경우 적합한 loss function은 huber loss라고 있다. huber loss는 MSE와 MAE를 적절하게 합친 것이다. 그래서 MSE에 비해 outlier에 덜 민감하고 MAE에 비..

시간 다루기

1. 문제 이벤트 시작 날짜와 이벤트가 끝나는 날짜, 고객의 접속 기록이 주어진다. 모든 날짜는 mm/dd 형태로 주어지는데 이벤트 시작 날짜는 mm/dd day 형태로 주어진다. day는 'MON','TUE','WED','THU','FRI','SAT','SUN' 중 하나로 주어진다. 고객의 접속 기록은 시작 날짜와 끝나는 날짜 사이에서 접속한 날짜를 리스트 형태로 주어진다. 2월은 항상 28일로 끝난다고 가정한다. 날짜는 01/01부터 12/31까지 주어지고 시작 날짜가 끝나는 날짜보다 늦는다던지 형식에 맞지 않는 경우는 주어지지 않는다 이 때 고객이 평일에 연속해서 접속한 기록의 최대 일수를 구한다면? 예를 들어 24일이 목요일 일때, 24,25,26,28,29,31 접속했다고 가정하자. 일요일인 2..