논문 링크

Introduction

예술가들이 landscape (풍경) sketch를 그릴 때 먼저 원중근경을 나누고 스케칭을 그립니다. 본 연구에서는 이러한 사실로부터 영감을 받아 Stable Diffusion, ControlNet 그리고 LoRA를 활용하여 원중근경으로 landscape sketch를 생성하였습니다.

원중근경을 활용한 이미지 생성은 “to our best knowledge”, 본 연구가 최초이며 예술가들이 활용, 수정 가능하다는 점에서 그 연구에 의의가 있습니다.

Related work

Stable Diffusion

Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

Stable Diffusion model overview

Stable Diffusion model overview

Stable Diffusion은 noise를 제거하는 과정인 diffusion 과정을 이미지 space상에서 수행하는 것이 아닌 Latent space 상에서 수행하여 결과물이 안정적이면서도 빠르게 생성된다는 것을 보인 연구입니다.

또한, cross attention 을 활용하여 semantic map, text 등의 다양한 입력으로 주어 생성 결과를 제어할 수도 있습니다. 이러한 특징으로 인해 다양한 커뮤니티에서 널리 사용되는 베이스 모델입니다.

본 연구에서는 Stable Diffusion 모델을 베이스로 활용하여 원중근경을부터 스케치를 생성하였습니다.

ControlNet

Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." Proceedings of the IEEE/CVF international conference on computer vision. 2023.

ControlNet의 활용 예시

ControlNet의 활용 예시

ControlNet model overview

ControlNet model overview

Stable Diffusion의 베이스 모델은 text-image 데이터로 학습되었습니다. “의미론적”으로는 입력으로 주어진 text와 같은 이미지가 생성되지만 사람의 자세, 피사체의 구도 등 “기하학적”인 제어는 하기 어려웠습니다.

이를 보완하기 위해 추가적인 adapter를 학습하여 “제어”가 가능하다는 것을 보인 연구가 바로 ControlNet 연구입니다. 본 연구에서는 “원중근경”을 입력으로 주기 위해 ControlNet 연구를 활용하였습니다.

LoRA (Low-Rank Adaptation)

Stable Diffusion은 방대한 데이터로 학습되었습니다. 이러한 모델을 목적에 맞는 상대적으로 적은 데이터셋으로 fine-tuning 하는 것은 자칫 pre-trained 된 모델의 일반화 성능을 저하시킬 수 있습니다.

LoRA 연구에서는 이렇게 일반화 성능이 저하 되는 것을 방지하고자 기존의 pre-trained 된 모델의 파라미터를 고정시키고 작은 adapter module 만을 학습시키는 방법을 제안했습니다.

이를 통해 fine tuning 과정에서 기존 모델의 일반화 성능이 저하되는 것을 방지할 수 있을 뿐만 아니라 효율적으로 수행할 수 있게 되었습니다.

LoRA module

LoRA module