Loading...
2022. 2. 9. 19:28

파이썬에서 파일을 처리하는 방법

1. 파일(file) 기본적으로 text 파일과 binary 파일로 나뉨 text파일은 인간이 이해할 수 있는 문자열로 저장된 파일, txt파일, 파이썬 코드파일, html파일 binary파일은 컴퓨터만 이해하는 이진법 형식의 파일, 엑셀,워드 binary파일은 메모장으로 열면 깨져보인다 컴퓨터는 text파일을 binary로 변환하여 처리한다. 그래서 모든 text파일도 binary파일이다 이런 변환 규칙을 정한 여러 표준이 있다. 아스키코드, utf8,utf16 등 2. 파일을 처리하는 방법 open(‘파일이름’,’모드’)를 이용함 r:읽기모드 , w:쓰기모드, a:추가모드 2-1) read() read()를 이용하여 읽기모드 파일의 내용을 전부 읽어와 하나의 문자열로 반환 read로 파일의 내용을 전..

2022. 2. 8. 01:28

데이터분석 전문가(ADP)를 위한 R프로그래밍 기초편5

1. 데이터프레임 데이터에서 각각의 변수에 해당하는 열들의 모임 data.frame(벡터, 벡터, 벡터, ...) 벡터들로 데이터셋을 생성함 혹은 열 변수벡터로 데이터셋을 생성 혹은 data.frame(변수1이름=값, 변수2이름=값, 변수3이름=값,.....) > a b c d d a b c 1 1 5 9 2 2 6 10 3 3 7 11 4 4 8 12 > new new a b c d 1 1 2 3 a N=100 > dtfm dtfm$lab [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" [42] "" "" "" "" "" ""..

데이터분석 전문가(ADP)를 위한 R프로그래밍 기초편4

1. 벡터 벡터의 원소들은 동질적 한 벡터의 모든 원소는 같은 자료형 또는 같은 모드(mode)를 가진다. 예를 들어 문자형과 수치형을 넣으면 모두 문자형으로 통일된다 > v v [1] "yun" "13" "22" 벡터는 위치로 indexing가능 v[2]는 v의 2번째 원소 벡터는 인덱스를 통해 여러 개의 원소로 구성된 하위 벡터를 반환할 수 있다 v[c(2,3)]은 v벡터의 2번째, 3번째 원소로 구성된 하위벡터 인덱스에 -를 붙이면 해당 번호는 제외한 나머지 번호의 원소를 가져옴 v[-c(2,3)]은 2,3번째 값을 제외한 하위벡터 > v v[2] [1] 21 > v[c(2,3)] [1] 21 42 > v[-c(2,3)] [1] 33 32 5 4 432 21 벡터의 원소들도 이름을 가질 수 있다 >..

2022. 2. 5. 04:07

데이터분석 전문가(ADP)를 위한 R프로그래밍 기초편3

1. scan scan('파일이름')을 통해 단순한 벡터 형태의 파일을 읽어들인다 > scan('/cloud/project/file.txt') Read 3 items [1] 123 4 5 2. read.csv read.csv('파일이름', header=T, stringsAsFactors=, as.is=, na.strings=)를 통해 CSV 파일을 읽는다 header=T를 하면 맨 첫줄을 변수명으로 인식함 > student str(student) 'data.frame':7 obs. of 5 variables: $ Name : chr "Jane" "Julia" "Tom" "Mike" ... $ Age : int 21 22 25 22 23 21 26 $ Height : int 168 157 178 182 1..

2022. 2. 1. 21:42

파이썬(python)의 defaultdict, ordereddict, namedtuple

1. defaultdict 사전에서 value의 기본값을 지정하여 새로 key를 생성할 때 value를 지정하지 않으면 기본값이 자동으로 들어간다 from collections import defaultdict로 사용할 수 있음 단어 빈도수 계산에 유용함 defaultdict를 쓰지 않으면 d[word]하는 순간 에러가 나는데 try~except~로 처리해야하는 번거로움이 있다 하지만 defaultdict로 기본값을 미리 지정해주면 d[word]해도 에러가 안난다 2. Ordereddict 데이터 입력한 순서대로 출력해주는 dictionary 요즘엔 기본 dictionary도 입력한 순서대로 출력해주므로 큰 의미없다 3. namedtuple 튜플 형태로 데이터 구조체(자료 구조, 이름 등)를 저장하는 자..

2022. 2. 1. 21:28

코딩테스트에서 유용한 list의 split과 join

str.split([기준값])은 [기준값]을 기준으로 str을 분리하여 리스트로 만들고 list(str)은 str 1글자씩 원소로 갖는 리스트로 만들어 반환 string = 'daehyuck' string.split() ['daehyuck'] string2 = 'daehyuck yun' string2.split() ['daehyuck','yun'] list(string) ['d','a','e','h','y','u','c','k'] ‘(기준값)’.join(list)는 리스트를 받아서 기준값으로 리스트 원소를 이어 문자열을 반환함 입력된 글자를 역순으로 출력하는 프로그램 word = input('input a word:') word_list = list(word) reverse_list = [] for i ..