An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

2022/08/02

 

1. abstract

 

text-to-image 모델은 자연어로부터 창조를 알려주는 전례없는 자유를 제공합니다.

 

그러나 어떻게 그러한 자유가 특별한 개념에 대한 이미지를 만들어낼 수 있는지, 불분명합니다.

 

다시 말해 우리는 어떻게 우리가 cat을 그림으로 만드는 language guided model을 만들 수 있는지 물어보았습니다.

 

여기 우리가 그러한 창의적인 자유를 따라갈 수 있는 간단한 접근을 제시합니다.

 

물체나 스타일같은 유저가 제공한 개념에 대한 3~5가지 이미지를 사용해서 우리는 model의 embedding space에 새로운 단어를 나타내는 방법을 배웁니다.

 

이러한 words들은 자연어 문장으로 구성될 수 있고, 직관적인 방법으로 창조를 알려줍니다.

 

주목할만한 점은 우리는 하나의 word embedding이 유일하면서 다양한 개념을 포착하는데 충분하다는 증거를 발견했습니다.

 

우리의 접근법을 다양한 베이스라인과 비교해보았고, 이것이 다양한 task에 대해 신뢰성있게 묘사할 수 있다는 것을 증명했습니다.

 

 

 

https://textual-inversion.github.io/

 

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

Text-to-image models offer unprecedented freedom to guide creation through natural language. Yet, it is unclear how such freedom can be exercised to generate images of specific unique concepts, modify their appearance, or compose them in new roles and nove

textual-inversion.github.io

 

 

TAGS.

Comments