Diffusion model을 활용한 이미지 변환 및 생성 연구
관련링크
본문
확산 모델(Diffusion Models)은 최근 가장 주목받는 딥러닝 기반의 생성 모델 중 하나로, 기존 생성 모델을 넘어서는 고품질의 데이터를 생성하며 AI 생성 분야의 새로운 표준으로 자리 잡고 있다. 텍스트-이미지 변환, 초해상도(Super-resolution), 인페인팅(Inpainting) 등 다양한 시각 콘텐츠 생성 분야에서 압도적인 성능을 보이며 그 활용 범위가 빠르게 확장되고 있다.
확산 모델은 원본 데이터에 점진적으로 노이즈를 추가하여 완전한 노이즈로 만드는 정방향 과정(Forward Process)과, 이 노이즈로부터 원본 데이터를 예측하며 점진적으로 노이즈를 제거하는 역방향 과정(Reverse Process)으로 구성된다. 모델은 이 역방향 과정을 학습함으로써, 무작위 노이즈로부터 시작하여 매우 사실적이고 정교한 데이터를 생성하는 능력을 갖추게 된다.
본 연구실은 Diffusion Model의 생성 능력 고도화 및 응용 기술 개발 연구를 수행한다. 생성 이미지에 나타나는 어색한 형태나 질감 왜곡과 같은 시각적 결함을 제거하여 실제 사진과 같은 결과물을 목표로 한다. 또한 LoRA (Low-Rank Adaptation)와 같은 경량화 기법을 적용해 소수의 데이터만으로 거대 모델을 특정 전문 분야에 빠르고 비용 효율적으로 적용하는 기술을 연구한다. 이와 마찬가지로 모델의 추론속도를 높이고 학습 안정성을 확보하여, 모델의 전체 비용을 절감하고 신뢰도를 높이는 최적화 기술을 개발한다.
● 경량화 어댑터 기반의 정교한 스타일 변환 연구
웹툰 및 콘텐츠 제작 분야에서는 반복적인 배경이나 채색 작업을 자동화하여 창작의 효율을 높이는 기술이 중요하다. 기존 딥러닝 기반의 카툰화 방식들은 이미지 패턴을 지나치게 단순화하여 결과물이 단조로워지는 한계가 있었다. 최근 가장 주목 받는 생성 모델인 확산 모델(Diffusion Model)은 이러한 한계를 극복할 새로운 가능성을 제시하며, 본 연구는 이 확산 모델에 특정 화풍을 학습시킨 경량화 어댑터(Adapter)를 활용하는 기법을 핵심적으로 연구한다.
이 기법의 핵심은 여러 어댑터를 조합하여 생성 과정을 다각적으로 제어하는 데 있다. 특정 화풍을 묘사하는 스타일 제어, 원본의 구도와 색감을 보존하는 구조 제어, 그리고 질감과 같은 세부 정보를 유지하는 의미론적 제어를 통해 기존 모델의 한계를 넘어선다. 이처럼 사용자의 의도를 정밀하게 반영할 수 있는 유연한 제어 기술은, 아티스트가 창작 활동에 더욱 집중할 수 있는 효율적인 작업 환경을 제공할 것이다.
그림 1 Diffusion 기반 Cartoonization 연구
● 구조적 제약조건을 따르는 조건부 생성 연구
건축 설계 초기 단계에서 주어진 조건에 맞는 창의적인 평면도 시안을 다양하게 탐색하는 과정은 필수적이지만 많은 시간과 노력을 요구한다. 이를 자동화하려는 기존 생성 모델 연구들은 주로 생성형 대립 신경망(cGAN)에 기반했지만, 불안정한 학습으로 인한 결과물의 왜곡 문제와 대규모 데이터셋 구축의 어려움이라는 명확한 한계를 보였다. 본 연구는 이러한 문제들을 해결할 대안으로, 최근 높은 품질의 이미지 생성 능력으로 주목받는 확산 모델을 건축 도면 도메인에 적용하는 새로운 접근법을 제안한다.
본 연구의 핵심 전략은 사전 학습된 확산 모델의 방대한 지식은 보존하면서 건축 도면의 특성만을 효율적으로 학습하는 파라미터 효율적 미세조정(PEFT)에 있다. 이렇게 도메인에 특화된 모델을 활용하여, 사용자가 제공한 외곽선이나 초기 레이아웃 같은 구조적 제약조건을 만족시키는 조건부 생성을 수행한다. 이는 주어진 조건 영역은 그대로 유지한 채, 잠재 공간 인페인팅(Latent Space Inpainting) 기술을 통해 나머지 미완성된 공간을 창의적으로 채워나가도록 유도하는 방식이다. 결과적으로 이 두 기술의 결합은, 건축 설계 규칙을 준수하면서도 이전에 없던 다양하고 창의적인 평면도 시안을 자동으로 생성하는 강력한 시스템을 가능하게 한다.
그림 2 Diffusion 기반 조건부 평면도 생성 연구