Loading...
2024. 4. 2. 01:45

머신러닝에서 hyperparameter search를 도와주는 optuna 라이브러리 소개

1. introduction hyperparameter tuning을 도와주는 open source framework 파이썬을 이용하여 최적화된 hyperparameter를 자동으로 찾아줌 큰 공간을 더욱 빠르고 효과적으로 찾아주는 최신 알고리즘인 bayesian optimization을 사용? hyperparameter search가 특별한 코드 수정없이도 쉽게 병렬화가 가능해서 대규모 탐색도 분산 머신으로 탐색할 수있는 방법을 제공 쉽게 디자인 되어 있어서 상당히 쉽게 사용가능함 2. 기본적인 사용방법 optimize하고 싶은 objective function을 정의함 trial.suggest_uniform, trial.suggest_int 등으로 탐색하고자 하는 값의 범위를 설정함 실제 search..

2024. 2. 17. 02:15

-1 의 50만 거듭제곱을 -1**(500000)으로 하면 안되는 이유

파이썬에서 어떤 정수의 거듭제곱을 구한다면 **을 사용한다 print(3**2) 9 그런데 사실 -1의 거듭제곱은 홀수번 거듭제곱하면 -1이고 짝수번 거듭제곱하면 1이다. 그래서 단순히 n이 짝수인지 홀수인지에 따라 (-1)**(n)을 바로 계산할 수 있다 그래봤자 큰 차이 없는거 그냥 하면 되는거 아니냐? 라고 생각할 수 있는데, 한두번 계산하는건 크게 차이 없지만 n이 충분히 클때 (-1)**(n)을 여러번 계산하면 시간차이가 3~4배 정도로 차이가 난다

2024. 1. 18. 00:48

(매우 중요)대용량 데이터로 colab 딥러닝 학습할 때 첫번째 epoch이 매우 느리다면(colab 대용량 데이터, dataloader 병목현상)

colab에서 7만개 정도의 이미지 데이터를 학습하고 6만개 정도 이미지 데이터를 test할려고 하는데 평소에 한 것처럼 구글 드라이브에 데이터를 넣어두고 학습 시도 하지만 예전에 경험한 것처럼 한 폴더에 너무 많은 데이터를 넣어두면 파이썬이 구글 드라이브 폴더에 아예 접근을 못함 https://deepdata.tistory.com/1084 구글드라이브로 대용량 데이터를 다룰 때 필요한 테크닉(압축해제, 자동압축, 파일 크기 확인방 구글 드라이브의 한 폴더 내에 너무 많은 데이터가 있을 경우, colab에서 구글 드라이브로 연동할때, 파이썬이 구글 드라이브의 폴더 내의 데이터에 제대로 접근하지 못한다 그래서 한 폴더당 1000 deepdata.tistory.com 그래서 한 폴더에 500개 정도로 해서 ..

2024. 1. 14. 12:57

구글드라이브로 대용량 데이터를 다룰 때 필요한 테크닉(압축해제, 자동압축, 파일 크기 확인방법)

구글 드라이브의 한 폴더 내에 너무 많은 데이터가 있을 경우, colab에서 구글 드라이브로 연동할때, 파이썬이 구글 드라이브의 폴더 내의 데이터에 제대로 접근하지 못한다 그래서 한 폴더당 10000개 이내로 데이터를 분할해서 저장해두는게 유리하다 --------------------------------------------------------------------------------------------------------------------- 개인 드라이브에서 구글 드라이브로 데이터를 옮길때, 압축된 상태에서 옮기고 연동한 다음 파이썬으로 압축을 해제해서 사용하는게 유리할 수 있다 colab으로 구글 드라이브로 연동한 다음, 구글 드라이브의 zip파일을 압축해제하면 된다 https://cod..

2023. 12. 14. 01:35

Python 개발의 문서화 도구 Sphinx 사용해보기

PytorchKR 레포지토리 기여 중에 Sphinx에 대해 알게되었다 자세한 활용은 해보지 않았으니 생략하고 이런게 있다는 느낌정도만 가져가자고 Sphinx는 Python 프로젝트를 문서화하는 라이브러리인데 pip install sphinx로 설치 가능 !pip install sphinx sphinx로 작성하는 문서는 rst파일로 되어있는데 고쳐야하는 부분을 고치면 된다 다행히 python 코드가 입력되는 부분은... code :: python으로 되어있고 python 문법을 따르더라고 다음 빌드를 위해 sphinx-quickstart를 입력 설명에 따라 입력해주면 되는데 소스 코드와 빌드 경로를 분리할건지 아닌지? 기본값은 n이라네 그 외에 프로젝트 이름이나 작가 이름, 버전, 프로젝트 언어 등을 입력..

2023. 12. 12. 02:03

Python으로 유튜브 영상 다운로드하는 방법

문득 영상에서 음성을 추출하고 싶을 수 있다 영상은 이미지 프레임의 연속과 음성이 합쳐진 파일인데 영상에서 음성을 추출하고 싶으면 편집프로그램으로 쉽게 할 수 있다. Python으로 영상이 있으면 음성도 추출할 수 있지 않을까 생각하다가 찾아보니 유튜브 영상 다운로드 하는 방법이 있더라고 다음은 유튜브 영상의 링크를 입력하면 음성만 추출한다 기본은 mp4로 다운받아지는데 mp3로 확장명 변경할 수 있다 !pip install pytube from pytube import YouTube import os link = input() yt = YouTube(link) filepath = yt.streams.filter(only_audio=True).first().download() #mp3path = file..