생성 모델 (Generative Models)

새로운 데이터를 생성하는 AI 모델

← 메인으로 돌아가기

생성 모델 개요

학습 데이터의 분포를 학습하여 새로운 데이터를 생성하는 모델입니다.

생성 모델의 목적

  • 새로운 데이터 샘플 생성
  • 데이터 증강 (Data Augmentation)
  • 누락된 데이터 복원
  • 데이터 분포 학습
  • 창의적 콘텐츠 제작

주요 생성 모델 유형

GAN (Generative Adversarial Networks)

생성자와 판별자가 경쟁하며 학습

  • Vanilla GAN - 기본 GAN 구조
  • DCGAN - 컨볼루션 레이어 사용
  • StyleGAN - 고품질 이미지 생성
  • CycleGAN - 페어링 없는 이미지 변환
  • BigGAN - 대규모 고해상도 이미지
  • Conditional GAN - 조건부 생성

VAE (Variational Autoencoders)

확률적 잠재 공간을 통한 생성

  • Standard VAE - 기본 VAE 구조
  • β-VAE - 분리된 표현 학습
  • VAE-GAN - VAE와 GAN 결합
  • Conditional VAE - 조건부 생성
  • VQ-VAE - 벡터 양자화 사용

확산 모델 (Diffusion Models)

노이즈 추가와 제거 과정을 통한 생성

  • DDPM (Denoising Diffusion Probabilistic Models)
  • DDIM (Denoising Diffusion Implicit Models)
  • Stable Diffusion - 텍스트-이미지 생성
  • DALL-E 2 - OpenAI의 이미지 생성
  • Imagen - Google의 텍스트-이미지 모델

자기회귀 모델 (Autoregressive Models)

순차적으로 데이터를 생성

  • PixelRNN/PixelCNN - 픽셀 단위 생성
  • GPT 시리즈 - 텍스트 생성
  • WaveNet - 음성 생성
  • Transformer 기반 모델

플로우 기반 모델 (Flow-based Models)

가역적 변환을 통한 생성

  • RealNVP
  • Glow
  • Flow++
  • Neural Spline Flows

응용 분야별 생성 모델

이미지 생성

  • 사진 생성 (인물, 풍경)
  • 예술 작품 생성
  • 스타일 변환
  • 이미지 편집 및 수정
  • 초해상도 변환
  • 이미지 복원

텍스트 생성

  • 기사 작성
  • 창작 소설
  • 대화 생성
  • 코드 생성
  • 번역
  • 요약

음성/오디오 생성

  • 음성 합성 (TTS)
  • 음악 생성
  • 음성 변환
  • 효과음 생성
  • 보컬 합성

비디오 생성

  • 비디오 합성
  • 딥페이크
  • 애니메이션 생성
  • 비디오 예측
  • 스타일 전이

3D 모델 생성

  • 3D 객체 생성
  • 포인트 클라우드 생성
  • 메시 생성
  • 텍스처 생성
  • 3D 씬 생성

최신 동향

멀티모달 생성

  • 텍스트-이미지 (DALL-E, Midjourney)
  • 텍스트-비디오 (Make-A-Video)
  • 텍스트-3D (DreamFusion)
  • 이미지-텍스트 (CLIP)
  • 오디오-비주얼

대규모 언어 모델

  • GPT-4
  • Claude
  • PaLM
  • LLaMA
  • Gemini

도전 과제와 고려사항

기술적 과제

  • 모드 붕괴 (Mode Collapse)
  • 학습 불안정성
  • 평가 지표 부재
  • 고품질 데이터 필요
  • 계산 비용

윤리적 고려사항

  • 딥페이크 문제
  • 저작권 이슈
  • 편향성 문제
  • 프라이버시 침해
  • 악용 가능성