Loading...
2024. 4. 22. 02:31

colab에서 데이터를 준비하는 필수 명령어 wget, gunzip, unzip, tar xf,

!wget (url) 하면 해당 url의 파일을 다운로드 받는다 .tar.gz 형태로 압축이 되어있는데, gz 형태의 압축은 !gunzip으로 압축해제가능 !gunzip (파일명) 하면 해당 파일의 gz압축을 푼다 원래 notMNIST_large.tar.gz가 notMNIST_larget.tar로 바뀜 https://unix.stackexchange.com/questions/48690/whats-the-difference-between-gunzip-and-unzip What's the difference between gunzip and unzip? What is the difference between gunzip and unzip? Tried to search but couldn't find anyt..

2024. 1. 18. 00:48

(매우 중요)대용량 데이터로 colab 딥러닝 학습할 때 첫번째 epoch이 매우 느리다면(colab 대용량 데이터, dataloader 병목현상)

colab에서 7만개 정도의 이미지 데이터를 학습하고 6만개 정도 이미지 데이터를 test할려고 하는데 평소에 한 것처럼 구글 드라이브에 데이터를 넣어두고 학습 시도 하지만 예전에 경험한 것처럼 한 폴더에 너무 많은 데이터를 넣어두면 파이썬이 구글 드라이브 폴더에 아예 접근을 못함 https://deepdata.tistory.com/1084 구글드라이브로 대용량 데이터를 다룰 때 필요한 테크닉(압축해제, 자동압축, 파일 크기 확인방 구글 드라이브의 한 폴더 내에 너무 많은 데이터가 있을 경우, colab에서 구글 드라이브로 연동할때, 파이썬이 구글 드라이브의 폴더 내의 데이터에 제대로 접근하지 못한다 그래서 한 폴더당 1000 deepdata.tistory.com 그래서 한 폴더에 500개 정도로 해서 ..

2024. 1. 14. 12:57

구글드라이브로 대용량 데이터를 다룰 때 필요한 테크닉(압축해제, 자동압축, 파일 크기 확인방법)

구글 드라이브의 한 폴더 내에 너무 많은 데이터가 있을 경우, colab에서 구글 드라이브로 연동할때, 파이썬이 구글 드라이브의 폴더 내의 데이터에 제대로 접근하지 못한다 그래서 한 폴더당 10000개 이내로 데이터를 분할해서 저장해두는게 유리하다 --------------------------------------------------------------------------------------------------------------------- 개인 드라이브에서 구글 드라이브로 데이터를 옮길때, 압축된 상태에서 옮기고 연동한 다음 파이썬으로 압축을 해제해서 사용하는게 유리할 수 있다 colab으로 구글 드라이브로 연동한 다음, 구글 드라이브의 zip파일을 압축해제하면 된다 https://cod..

2023. 1. 6. 17:36

pytorch 재활훈련3 -transfer learning 해보기-

1. 실제 비즈니스에서 딥러닝 구현하는 방식 학습이 끝난 모델을 사용해 ILSVRC의 1000종류 클래스에서 이미지 라벨을 예측했지만, 실제 비즈니스에서는 예측하고자 하는 이미지의 라벨이 ILSVRC에서 사용한 1000종류 클래스와는 다르므로, 자신의 데이터로 딥러닝 모델을 다시 학습시켜야 한다. 1-1) 파이토치를 활용한 딥러닝 구현 흐름 먼저 앞으로 구현할 딥러닝 응용 기술의 전체 그림을 파악 1) 구체적으로는 전처리, 후처리, 네트워크 모델의 입출력을 파악한다. 2) 다음으로는 Dataset 클래스를 작성 입력 데이터와 라벨 등을 쌍으로 갖는 클래스 Dataset에는 데이터에 대한 전처리 클래스의 인스턴스를 할당해서 파일을 읽을 때 자동으로 전처리를 적용 훈련데이터, 검증데이터, 테스트데이터에 대한..