[논문 리뷰 - cGAN] Conditional Generative Adversarial Nets (2014)

2025. 2. 5. 13:09·Generative Models
728x90
반응형

본 논문은 University of Montreal & Yahoo Inc에서 작성한 논문입니다.

논문 링크: https://arxiv.org/abs/1411.1784

 

1. cGAN

cGAN은 레이블, 텍스트 description, 이미지의 일부 같은 보조 정보를 입력으로 받는 조건부 모델이라고 할 수 있습니다.

빨간색 화살표로 가리키는 부분이 바로 보조 정보(auxiliary information)가 추가되는 부분입니다.

이것 말고는 모델 구조가 기존의 GAN과 동일합니다.

 

따라서 ojbective function 또한 기존 확률분포에서 조건부 확률로 변환된 것 외의 별 차이는 없습니다.

 

DCGAN과 마찬가지로 기술적인 cotribution이 많지 않기 때문에 코드를 보면서 조금 더 공부해 보도록 합시다.

 

 

2. Generator

처음 입력으로 임배딩된 condition과 latent vector가 concatentation 되어 들어갑니다.

따라서 입력 차원은 110입니다.

 

그 다음 1x784 크기의 출력을 다시 reshape 시켜 28x28 이미지로 만들어 줍니다.

(코드에서는 1x1024 -> 32x32로 변환하는 것으로 보입니다.)

 

 

3. Discriminator

Discriminator는 Generator의 output 뿐만 아니라 임배딩된 condition vector를 입력으로 받습니다.

이후, 여러 개의 Linear 레이어와 sigmoid 함수를 지나서 최종적으로 Real or Fake에 대한 확률을 출력하게 됩니다.

 

 

4. Experimental Results

Generated MNIST digits

 

각 행에 해당하는 숫자를 condition으로 받은 cGAN이 만들어낸 이미지입니다.

꽤나 괜찮은 결과라고 생각합니다.

 

Parzen window-based log-likelihood estimates for MNIST

 

log-likelihood 같은 경우 그렇게 높지 않은 값을 가집니다.

저자들이 이 표를 효과성의 증명이라기보다는 개념 검증(proof-of-concept)으로 제시했다고 합니다.

 

 

Multimodl test

 

저자들은 Multimodal 데이터에 대해서도 cGAN이 잘 작동하는 지를 테스트했습니다. 

CNN을 이용해 Image feature를 획득한 후, 이를 latent vector와 concatenation 시켜 Generator의 입력으로 사용합니다.

Generator는 입력을 1x200의 word vector로 변환해 줍니다.

(임배딩 차원이 200인 단어로 변환해 준다는 말과 동일합니다.)

 

 

Generator가 생성한 word vector는 왼쪽의 GT word vector와 매칭되어 학습됩니다.

학습이 끝난 후 추론을 진행했을 때, Generator는 파란색으로 표시된 단어들을 출력했다고 합니다.

 

이렇게 간단한 모델로도 Vision Language 모델을 구성할 수 있다는 점이 개인적으로 매우 흥미로운 부분이었습니다.

 


 

저의 글이 언제나 여러분께 도움이 되길 바라겠습니다. 👍

궁금한 내용 댓글 남겨주시면 빠르게 답변해 드리도록 하겠습니다. 😍

728x90
반응형

'Generative Models' 카테고리의 다른 글

[논문 리뷰 - Cycle GAN] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (ICCV 2017)  (2) 2025.02.06
[논문리뷰 - Pix2pix] Image-to-Image Translation with Conditional Adversarial Networks (CVPR 2017)  (3) 2025.02.05
[논문 리뷰 - DCGAN] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks (ICLR 2016)  (8) 2025.02.05
[이미지 생성 모델] Autoencoder, VAE, GAN 설명  (0) 2025.02.05
'Generative Models' 카테고리의 다른 글
  • [논문 리뷰 - Cycle GAN] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (ICCV 2017)
  • [논문리뷰 - Pix2pix] Image-to-Image Translation with Conditional Adversarial Networks (CVPR 2017)
  • [논문 리뷰 - DCGAN] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks (ICLR 2016)
  • [이미지 생성 모델] Autoencoder, VAE, GAN 설명
View synthesis 공부하는 대학원생
View synthesis 공부하는 대학원생
AI - view synthesis에 대해 공부하고 있으며, AI 공부하시는 분들과 함께 소통하고 싶습니다 😍
  • View synthesis 공부하는 대학원생
    Happy Support's Blog
    View synthesis 공부하는 대학원생
  • 전체
    오늘
    어제
    • 분류 전체보기 (63)
      • View synthesis (3)
      • Backbone (5)
      • Generative Models (5)
      • On-device AI (3)
      • ML (2)
      • DL (1)
      • LLM (2)
      • 코딩테스트 (25)
      • 에러 해결 모음집 (12)
      • 기타 (4)
  • 링크

  • 인기 글

  • 최근 댓글

  • 최근 글

  • 250x250
    반응형
  • hELLO· Designed By정상우.v4.10.3
View synthesis 공부하는 대학원생
[논문 리뷰 - cGAN] Conditional Generative Adversarial Nets (2014)
상단으로

티스토리툴바