Loading...
2024. 4. 22. 02:31

colab에서 데이터를 준비하는 필수 명령어 wget, gunzip, unzip, tar xf,

!wget (url) 하면 해당 url의 파일을 다운로드 받는다 .tar.gz 형태로 압축이 되어있는데, gz 형태의 압축은 !gunzip으로 압축해제가능 !gunzip (파일명) 하면 해당 파일의 gz압축을 푼다 원래 notMNIST_large.tar.gz가 notMNIST_larget.tar로 바뀜 https://unix.stackexchange.com/questions/48690/whats-the-difference-between-gunzip-and-unzip What's the difference between gunzip and unzip? What is the difference between gunzip and unzip? Tried to search but couldn't find anyt..

2024. 1. 18. 00:48

(매우 중요)대용량 데이터로 colab 딥러닝 학습할 때 첫번째 epoch이 매우 느리다면(colab 대용량 데이터, dataloader 병목현상)

colab에서 7만개 정도의 이미지 데이터를 학습하고 6만개 정도 이미지 데이터를 test할려고 하는데 평소에 한 것처럼 구글 드라이브에 데이터를 넣어두고 학습 시도 하지만 예전에 경험한 것처럼 한 폴더에 너무 많은 데이터를 넣어두면 파이썬이 구글 드라이브 폴더에 아예 접근을 못함 https://deepdata.tistory.com/1084 구글드라이브로 대용량 데이터를 다룰 때 필요한 테크닉(압축해제, 자동압축, 파일 크기 확인방 구글 드라이브의 한 폴더 내에 너무 많은 데이터가 있을 경우, colab에서 구글 드라이브로 연동할때, 파이썬이 구글 드라이브의 폴더 내의 데이터에 제대로 접근하지 못한다 그래서 한 폴더당 1000 deepdata.tistory.com 그래서 한 폴더에 500개 정도로 해서 ..

2024. 1. 14. 12:57

구글드라이브로 대용량 데이터를 다룰 때 필요한 테크닉(압축해제, 자동압축, 파일 크기 확인방법)

구글 드라이브의 한 폴더 내에 너무 많은 데이터가 있을 경우, colab에서 구글 드라이브로 연동할때, 파이썬이 구글 드라이브의 폴더 내의 데이터에 제대로 접근하지 못한다 그래서 한 폴더당 10000개 이내로 데이터를 분할해서 저장해두는게 유리하다 --------------------------------------------------------------------------------------------------------------------- 개인 드라이브에서 구글 드라이브로 데이터를 옮길때, 압축된 상태에서 옮기고 연동한 다음 파이썬으로 압축을 해제해서 사용하는게 유리할 수 있다 colab으로 구글 드라이브로 연동한 다음, 구글 드라이브의 zip파일을 압축해제하면 된다 https://cod..