microsoft의 TRELLIS

728x90

Structured 3D Latents for Scalable and Versatile 3D Generation

 

https://arxiv.org/abs/2412.01506

 

Structured 3D Latents for Scalable and Versatile 3D Generation

We introduce a novel 3D generation method for versatile and high-quality 3D asset creation. The cornerstone is a unified Structured LATent (SLAT) representation which allows decoding to different output formats, such as Radiance Fields, 3D Gaussians, and m

arxiv.org

 

우리는 다재다능하고 고품질의 3D 자산 생성을 위한 새로운 3D 생성 방법을 소개합니다.

 

이 방법의 핵심은 통합된 구조화된 잠재(SLAT, Structured LATent) 표현 방식으로, 이는 Radiance Fields, 3D Gaussians, 메쉬(meshes)와 같은 다양한 출력 형식으로 디코딩할 수 있게 합니다.

 

이를 위해 강력한 비전 기반 모델에서 추출한 다중 뷰 시각적 특징들과 희소하게 채워진 3D 그리드를 통합하여 구조적(기하학적) 정보와 텍스처적(외형적) 정보를 포괄적으로 캡처하면서도 디코딩 과정에서의 유연성을 유지합니다.

 

SLAT에 최적화된 Rectified Flow Transformer를 3D 생성 모델로 사용하며, 500,000개의 다양한 객체로 이루어진 대규모 3D 자산 데이터셋을 사용해 최대 20억 개의 매개변수를 가진 모델을 학습시켰습니다.

 

이 모델은 텍스트 또는 이미지 조건을 기반으로 높은 품질의 결과물을 생성하며, 유사한 규모의 최신 방법을 포함한 기존 방법들을 현저히 능가합니다.

 

또한, 이전 모델들이 제공하지 못했던 유연한 출력 형식 선택로컬 3D 편집 기능을 선보입니다. 

 

https://trellis3d.github.io/

 

TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation

* Structured 3D Latents for Scalable and Versatile 3D Generation * Generated by TRELLIS, using its image to 3D assets cabilities. TL;DR: A native 3D generative model built on a unified Structured Latent representation and Rectified Flow Transformers, enabl

trellis3d.github.io

 

 

최근 몇 년 동안 3D를 위한 AI 생성 콘텐츠(AIGC)는 엄청난 발전을 이루었지만 [48, 68, 87], 기존의 3D 생성 모델은 여전히 2D 선행 모델에 비해 생성 품질에서 부족한 점을 보이고 있습니다.

 

반면, 대규모 이미지 생성 모델 [9, 19]은 현재 디지털 산업에 큰 영향을 미치는 실용적인 도구를 가능하게 했습니다.

2D 이미지는 일반적으로 픽셀 그리드로 표현되는 반면, 3D 데이터는 메쉬(meshes), 포인트 클라우드(point clouds), Radiance Fields [59], 3D Gaussians [33] 등 다양한 표현 방식을 포함합니다.

 

각 형식은 특정 응용 분야에 최적화되어 있으며, 다른 작업에 적용하려 할 때 어려움을 겪을 수 있습니다.

 

예를 들어, 메쉬나 암묵적 필드(implicit fields) [58, 66]와 같은 3D 표현 방식을 객체 기하 생성에 활용한 많은 연구 [12, 25, 41, 72, 96, 102, 106]가 있지만, 이들은 종종 고급 볼륨 렌더링 기능이 장착된 표현 방식(예: 3D Gaussians와 Radiance Fields)을 사용하는 모델에 비해 세부적인 외형 표현에서 한계를 드러냅니다.

 

반대로, Radiance Fields나 3D Gaussians [37, 91, 104] 기반의 생성 모델은 고품질의 외형 렌더링에는 뛰어나지만, 신뢰성 있는 기하 구조 추출에서는 어려움을 겪습니다.

 

더 나아가, 다양한 표현 방식이 가진 고유한 구조적 또는 비구조적 특성은 일관된 네트워크 아키텍처를 통해 처리하는 것을 복잡하게 만듭니다.

 

이러한 문제들은 통합된 잠재 공간에서 생성 모델을 학습하는 최근의 고급 2D 생성 방법론들 [19, 73]에서 합의된 표준과 달리, 표준화된 3D 생성 모델링 패러다임의 개발을 방해하고 있습니다.

 

이 논문에서는 다양한 표현 방식을 아우르며 다양한 다운스트림 요구를 충족할 수 있는 고품질 3D 생성을 지원하는 통합적이고 다재다능한 잠재 공간을 개발하는 것을 목표로 합니다.

 

이 문제는 매우 도전적이며 이전 접근법에서 거의 다뤄지지 않았습니다.

 

이를 해결하기 위한 우리의 주요 전략은 잠재 공간 설계에 명시적인 희소 3D 구조를 도입하는 것입니다.

 

이러한 구조는 객체 주변의 로컬 복셀 내 속성을 특징짓는 방식으로, 다양한 3D 표현으로 디코딩할 수 있게 합니다.

 

이는 3D 재구성 분야의 최근 발전 [22, 54, 74]에서도 입증된 접근 방식입니다.

 

이 접근법은 3D 정보를 포함하지 않는 복셀을 우회하여 효율적으로 고해상도를 모델링할 수 있도록 하고 [45, 72], 로컬리티(locality)를 도입하여 유연한 편집을 가능하게 합니다.

 

그러나 이러한 구조를 사용하더라도, 다양한 3D 표현으로 고품질 디코딩을 달성하는 것은 여전히 간단하지 않습니다.

 

이는 잠재 표현이 3D 자산의 포괄적인 기하학적 정보와 외형 정보를 모두 포함해야 하기 때문입니다.

 

이 문제를 해결하기 위한 두 번째 전략으로, 우리는 희소 구조에 강력한 비전 기반 모델(vision foundation model) [65]을 결합하여 세부적인 정보를 인코딩하도록 설계했습니다.

 

이 모델은 뛰어난 3D 인식 능력 [18]과 세부 표현 능력 [112]이 입증되었습니다.

 

이 접근법은 별도의 3D 인코더에 대한 필요성을 제거하며, 3D 데이터를 특정 표현 방식과 정렬하는 데 드는 비용이 많이 드는 사전 적합(pre-fitting) 과정을 없애줍니다 [91, 104].

 

이 두 가지 전략을 바탕으로, 우리는 고품질과 다재다능함을 갖춘 3D 생성을 위한 통합된 3D 잠재 표현 방식인 **Structured LATents(SLAT)**를 소개합니다.

 

SLAT는 희소 구조와 강력한 시각적 표현을 결합합니다.

 

SLAT는 객체의 표면과 교차하는 활성 복셀(active voxels)에 로컬 잠재(latent)를 정의합니다.

 

이 로컬 잠재는 3D 자산의 조밀하게 렌더링된 뷰에서 추출한 이미지 특징을 융합하고 처리하여 인코딩되며, 이를 활성 복셀에 첨부합니다.

 

이 특징들은 강력한 사전 학습된 비전 인코더 [65]에서 파생되며, 활성 복셀이 제공하는 대략적인 구조를 보완하면서 상세한 기하학적 및 시각적 특성을 캡처합니다.

 

이후 다양한 디코더를 적용하여 SLAT를 고품질의 다양한 3D 표현으로 매핑할 수 있습니다.

 

SLAT를 기반으로 우리는 텍스트 프롬프트나 이미지를 조건으로 사용하는 대규모 3D 생성 모델군을 개발했으며, 이를 본 논문에서 TRELLIS라 명명했습니다.

 

TRELLIS는 두 단계로 이루어진 파이프라인을 적용합니다.

 

첫 번째 단계에서는 SLAT의 희소 구조를 생성하고, 두 번째 단계에서는 비어 있지 않은 셀에 대한 잠재 벡터를 생성합니다.

 

우리는 Rectified Flow Transformers를 백본 모델로 사용하며, SLAT의 희소성을 처리할 수 있도록 적절히 수정하여 적용했습니다.

 

TRELLIS는 20억 개의 매개변수로 구성된 모델을 신중히 수집된 대규모 3D 자산 데이터셋에서 학습시켰습니다.

 

광범위한 실험을 통해, TRELLIS가 세부적인 기하학과 생생한 텍스처를 가진 고품질 3D 자산을 생성할 수 있으며, 이전 방법을 크게 능가한다는 것을 입증했습니다.

 

더불어, 다양한 다운스트림 요구에 맞추어 서로 다른 출력 형식의 3D 자산을 손쉽게 생성할 수 있습니다.

 

 

  • 고품질: 복잡한 형태와 텍스처 디테일을 가진 다양한 3D 자산을 고품질로 생성합니다.
  • 다재다능한 생성: 텍스트 또는 이미지 프롬프트를 입력으로 받아, Radiance Fields, 3D Gaussians, 메쉬 등을 포함한 다양한 최종 3D 표현을 생성할 수 있습니다.
  • 유연한 편집: 텍스트 또는 이미지 프롬프트에 따라 지역적인 영역의 삭제, 추가, 교체와 같은 유연한 튜닝 없는 3D 편집이 가능합니다.
  • 피팅 없는 학습: 전체 학습 과정에서 3D 피팅이 필요하지 않습니다.

 

이러한 뛰어난 성능과 다양한 장점을 바탕으로, 우리의 새로운 모델은 강력한 3D 생성 기반 역할을 하며 3D 비전 커뮤니티에 새로운 가능성을 열어줄 수 있을 것으로 믿습니다.

 

우리는 이 연구가 새로운 표현 방식에 대한 지속적인 탐구와 적응에 초점을 맞춘 기존 접근법과는 달리, 3D 표현에 구애받지 않는 자산 모델링에 대한 통찰을 제공하기를 바랍니다.

 

모든 코드, 모델, 데이터는 재현성과 다운스트림 애플리케이션을 지원하기 위해 공개됩니다.

 

 

 

 

 

3D asset을 f = (시각적 특징, voxel)로 encoding

 

f를 z = (latent, voxel)로 encoding

 

z를 특정 3D로 decoding

 

이걸 실제 3D와 비교하여 training

 

encoder와 decoder가 아래의 transformer 구조를 가짐

 

z는 3D Gaussians, Radiance Fields, 메쉬(Meshes)의 3가지 3d 표현으로 decoding가능함

 

대충 이런 느낌인듯

 

 

 

 

 

 

 

 

 

 

https://huggingface.co/spaces/JeffreyXiang/TRELLIS

 

TRELLIS - a Hugging Face Space by JeffreyXiang

Running on Zero

huggingface.co

 

 

 

 

나름 많이 발전하긴 했는데 아직 멀긴한듯..?

728x90
TAGS.

Comments