'python' 태그의 글 목록 (3 Page)

머신러닝에서 hyperparameter search를 도와주는 optuna 라이브러리 소개

1. introduction hyperparameter tuning을 도와주는 open source framework 파이썬을 이용하여 최적화된 hyperparameter를 자동으로 찾아줌 큰 공간을 더욱 빠르고 효과적으로 찾아주는 최신 알고리즘인 bayesian optimization을 사용? hyperparameter search가 특별한 코드 수정없이도 쉽게 병렬화가 가능해서 대규모 탐색도 분산 머신으로 탐색할 수있는 방법을 제공 쉽게 디자인 되어 있어서 상당히 쉽게 사용가능함 2. 기본적인 사용방법 optimize하고 싶은 objective function을 정의함 trial.suggest_uniform, trial.suggest_int 등으로 탐색하고자 하는 값의 범위를 설정함 실제 search..

format_list_bulleted 프로그래밍/Python
· 2024. 4. 2.
textsms

tqdm(enumerate(dataloader))와 enumerate(tqdm(dataloader))

tqdm은 for문에서 iterable을 순회할때 어느정도 남아있는지 알려주는 대표적인 라이브러리 기본적으로 tqdm(iterable) 형태로 다음과 같이 사용 필요에 따라 dataloader를 순회할때 어느정도 남아있는지 궁금하다면... dataloader는 indexing이 불가능해서 range(len(dataloader)): 형태로는 사용하기 어렵다 그래서 enumerate(dataloader)로 사용하는데 여기서 tqdm을 어떻게 써야하나 tqdm(enumerate(train_dataloader)) 형태로 쓰면... 이렇게 어느 정도 남아있는지 알수가 없음 반대로 enumerate(tqdm(train_dataloader)) 형태로 사용하면 어느정도 남아있는지 보여줌

format_list_bulleted 프로그래밍/Pytorch
· 2024. 3. 28.
textsms

FastAPI에서 return할 때 ValueError: TypeError("'numpy.float32' object is not iterable") 해결하기

print는 잘 되는걸 보면 값이 정상인데 프론트로 return할려면 에러가 난다 FastAPI에서 numpy.* 데이터 타입을 지원하지 않기 때문에 에러가 난다 문제가 되는 numpy value에서 *.item()으로 python value로 가져와서 저장하고 그러면 정상적으로 return할 수 있다

format_list_bulleted 프로그래밍/FastAPI
· 2024. 3. 17.
textsms

unicode와 한국어 간단하게 알아보기

1. unicode 다양한 언어처리에서 기본적으로 중요함 전 세계 모든 문자를 일관되게 표현하고 다룰 수 있도록 만들어진 문자 set 문자마다 숫자 하나에 mapping? character을 보면 알겠지만 웬만한 문자들이 전부 unicode에 대응되어 있음 위 그림에서 보면 U+는 unicode를 뜻하는 접두어이고 AC00은 16진수 code point이며 이것이 1개의 character에 대응됨 2. UTF-8 encoding이란 문자를 컴퓨터에서 저장하거나 처리할 수 있게 이진수로 바꿔주는 작업 현재 가장 많이 쓰이는 encoding방식 중 하나가 UTF-8 문자 타입에 따라 다른 길이의 byte를 할당했음 ASCII는 256개로 character를 제한하면서 영어의 알파벳은 모두 ASCII code..

format_list_bulleted 컴퓨터과학(CS)
· 2024. 3. 3.
textsms

(매우 중요)대용량 데이터로 colab 딥러닝 학습할 때 첫번째 epoch이 매우 느리다면(colab 대용량 데이터, dataloader 병목현상)

colab에서 7만개 정도의 이미지 데이터를 학습하고 6만개 정도 이미지 데이터를 test할려고 하는데 평소에 한 것처럼 구글 드라이브에 데이터를 넣어두고 학습 시도 하지만 예전에 경험한 것처럼 한 폴더에 너무 많은 데이터를 넣어두면 파이썬이 구글 드라이브 폴더에 아예 접근을 못함 https://deepdata.tistory.com/1084 구글드라이브로 대용량 데이터를 다룰 때 필요한 테크닉(압축해제, 자동압축, 파일 크기 확인방 구글 드라이브의 한 폴더 내에 너무 많은 데이터가 있을 경우, colab에서 구글 드라이브로 연동할때, 파이썬이 구글 드라이브의 폴더 내의 데이터에 제대로 접근하지 못한다 그래서 한 폴더당 1000 deepdata.tistory.com 그래서 한 폴더에 500개 정도로 해서 ..

format_list_bulleted 프로그래밍/Python
· 2024. 1. 18.
textsms

구글드라이브로 대용량 데이터를 다룰 때 필요한 테크닉(압축해제, 자동압축, 파일 크기 확인방법)

구글 드라이브의 한 폴더 내에 너무 많은 데이터가 있을 경우, colab에서 구글 드라이브로 연동할때, 파이썬이 구글 드라이브의 폴더 내의 데이터에 제대로 접근하지 못한다 그래서 한 폴더당 10000개 이내로 데이터를 분할해서 저장해두는게 유리하다 --------------------------------------------------------------------------------------------------------------------- 개인 드라이브에서 구글 드라이브로 데이터를 옮길때, 압축된 상태에서 옮기고 연동한 다음 파이썬으로 압축을 해제해서 사용하는게 유리할 수 있다 colab으로 구글 드라이브로 연동한 다음, 구글 드라이브의 zip파일을 압축해제하면 된다 https://cod..

format_list_bulleted 프로그래밍/Python
· 2024. 1. 14.
textsms