An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
2022/08/02
1. abstract
text-to-image 모델은 자연어로부터 창조를 알려주는 전례없는 자유를 제공합니다.
그러나 어떻게 그러한 자유가 특별한 개념에 대한 이미지를 만들어낼 수 있는지, 불분명합니다.
다시 말해 우리는 어떻게 우리가 cat을 그림으로 만드는 language guided model을 만들 수 있는지 물어보았습니다.
여기 우리가 그러한 창의적인 자유를 따라갈 수 있는 간단한 접근을 제시합니다.
물체나 스타일같은 유저가 제공한 개념에 대한 3~5가지 이미지를 사용해서 우리는 model의 embedding space에 새로운 단어를 나타내는 방법을 배웁니다.
이러한 words들은 자연어 문장으로 구성될 수 있고, 직관적인 방법으로 창조를 알려줍니다.
주목할만한 점은 우리는 하나의 word embedding이 유일하면서 다양한 개념을 포착하는데 충분하다는 증거를 발견했습니다.
우리의 접근법을 다양한 베이스라인과 비교해보았고, 이것이 다양한 task에 대해 신뢰성있게 묘사할 수 있다는 것을 증명했습니다.
https://textual-inversion.github.io/