Structured 3D Latents for Scalable and Versatile 3D Generation https://arxiv.org/abs/2412.01506 Structured 3D Latents for Scalable and Versatile 3D GenerationWe introduce a novel 3D generation method for versatile and high-quality 3D asset creation. The cornerstone is a unified Structured LATent (SLAT) representation which allows decoding to different output formats, such as Radiance Fields, 3D ..
1. overview 기존 데이터에 변화를 가해 추가로 데이터를 확보하는 방법 데이터가 적거나 imbalance된 상황에서 효과적으로 활용가능 적절한 변환을 하더라도 이미지 데이터의 불변하는 성질을 모델에 전달하여 robust하게 만든다 예를 들어 강아지 이미지는 회전을 하더라도 늘리더라도 일부분만 보이더라도 여전히 강아지 이미지임 어떻게 변환을 하더라도 이미지가 나타내는것은 사자임에는 변함없다 그러나 데이터 종류마다 augmentation의 종류나 특성이 달라질 것이다. 정형데이터는 정형데이터만의 augmentation이 있고 음성데이터는 음성데이터만의 augmentation이 있고 이미지 데이터는 이미지 데이터만의 augmenation이 있어 2. 경량화 관점에서 augmentatio..
1. sound source localization 소리가 이미지의 어디 부분에서 나는 소리인지 detection하여 heatmap으로 출력시키는 문제 image modal과 sound modal이 서로 reference하여 결론을 내리는 referencing model 소리의 context를 파악하여 image 내 object와 match하는 문제 여러 마이크에서 나오는 소리라면 위치를 찾는건 사실 큰 의미 없는데 하나의 마이크에서 여러 소리가 나오면 소리의 근원을 detection하는 것은 의미 있을 수 있다. 2. 구조 audio network에서는 sound embedding vector를 사용했지만 image network에서는 채널 공간정보가 남은 feature map을 사용 ima..
1. kernel 여러가지 뜻을 가지는 umbrella term: 다른 의미의 용어들을 모두 포괄하는 포괄적 의미를 가지는 용어 전체적으로는 kernel은 essential part, central part라는 뜻에서 여러 분야별로 파생됨 operating system에 쓰이는 것도 kernel 사전적으로 견과류, 씨앗, 알맹이,핵심 linear algebra에서 두 vector space V,W와 linear map L:V → W에 대하여 임의의 v ∈ V가 L(v)=0을 만족시키는 v의 집합을 Ker(L)이라고 부른다 기타 image processing같은 경우 image를 변환시키는 filter를 kernel이라고 부른다는거 기억나는가 kernel을 input image위에서 stri..
1. 2d image 2d image는 image의 각 pixel value가 2d array에 저장됨 RGB 이미지인 경우는 3 channel의 array가 존재하여 각 채널에 R,G,B의 pixel value가 저장 이미지의 부분에 대응하는 pixel값이 저장 컬러 이미지면 3 channel로 구성 2. 3d representation 3d 표현은 2d image와는 다르게 유일하지 않다 1) multi-view image 3d 물체를 여러 각도에서 사진 찍어서 각각을 전부 보관함 2) volumetric(voxel) 2d 이미지 표현법과 가장 비슷한 방법? 3d space의 물체를 적절하게 grid로 나눠서 해당 grid에 3d 물체가 차지하면 1 아니면 0의 binary로 표현? ..
흑백이미지를 준비하고 matplotlib.pyplot에서 plt.imshow로 출력을 해보면 cmap이라는 옵션을 줘야한다 color map이라는 뜻인데 기본값이 viridis라고 한다. 실제로 색이 비슷한걸 보니 그런것 같다 This parameter is ignored if X is RGB(A). 마지막에 이런 문장이 있는데, X가 RGB image면 cmap을 무시한다고 한다 channel 3인 gray image로 줬을 때는 cmap을 안줘도 gray로 잘 나온다
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.