← 메인으로 돌아가기
생성 모델 개요
학습 데이터의 분포를 학습하여 새로운 데이터를 생성하는 모델입니다.
생성 모델의 목적
- 새로운 데이터 샘플 생성
- 데이터 증강 (Data Augmentation)
- 누락된 데이터 복원
- 데이터 분포 학습
- 창의적 콘텐츠 제작
주요 생성 모델 유형
GAN (Generative Adversarial Networks)
생성자와 판별자가 경쟁하며 학습
- Vanilla GAN - 기본 GAN 구조
- DCGAN - 컨볼루션 레이어 사용
- StyleGAN - 고품질 이미지 생성
- CycleGAN - 페어링 없는 이미지 변환
- BigGAN - 대규모 고해상도 이미지
- Conditional GAN - 조건부 생성
VAE (Variational Autoencoders)
확률적 잠재 공간을 통한 생성
- Standard VAE - 기본 VAE 구조
- β-VAE - 분리된 표현 학습
- VAE-GAN - VAE와 GAN 결합
- Conditional VAE - 조건부 생성
- VQ-VAE - 벡터 양자화 사용
확산 모델 (Diffusion Models)
노이즈 추가와 제거 과정을 통한 생성
- DDPM (Denoising Diffusion Probabilistic Models)
- DDIM (Denoising Diffusion Implicit Models)
- Stable Diffusion - 텍스트-이미지 생성
- DALL-E 2 - OpenAI의 이미지 생성
- Imagen - Google의 텍스트-이미지 모델
자기회귀 모델 (Autoregressive Models)
순차적으로 데이터를 생성
- PixelRNN/PixelCNN - 픽셀 단위 생성
- GPT 시리즈 - 텍스트 생성
- WaveNet - 음성 생성
- Transformer 기반 모델
플로우 기반 모델 (Flow-based Models)
가역적 변환을 통한 생성
- RealNVP
- Glow
- Flow++
- Neural Spline Flows
응용 분야별 생성 모델
이미지 생성
- 사진 생성 (인물, 풍경)
- 예술 작품 생성
- 스타일 변환
- 이미지 편집 및 수정
- 초해상도 변환
- 이미지 복원
텍스트 생성
- 기사 작성
- 창작 소설
- 대화 생성
- 코드 생성
- 번역
- 요약
음성/오디오 생성
- 음성 합성 (TTS)
- 음악 생성
- 음성 변환
- 효과음 생성
- 보컬 합성
비디오 생성
- 비디오 합성
- 딥페이크
- 애니메이션 생성
- 비디오 예측
- 스타일 전이
3D 모델 생성
- 3D 객체 생성
- 포인트 클라우드 생성
- 메시 생성
- 텍스처 생성
- 3D 씬 생성
최신 동향
멀티모달 생성
- 텍스트-이미지 (DALL-E, Midjourney)
- 텍스트-비디오 (Make-A-Video)
- 텍스트-3D (DreamFusion)
- 이미지-텍스트 (CLIP)
- 오디오-비주얼
대규모 언어 모델
- GPT-4
- Claude
- PaLM
- LLaMA
- Gemini
도전 과제와 고려사항
기술적 과제
- 모드 붕괴 (Mode Collapse)
- 학습 불안정성
- 평가 지표 부재
- 고품질 데이터 필요
- 계산 비용
윤리적 고려사항
- 딥페이크 문제
- 저작권 이슈
- 편향성 문제
- 프라이버시 침해
- 악용 가능성