← 메인으로 돌아가기
강화학습 개요
에이전트가 환경과 상호작용하며 보상을 최대화하는 방법을 학습하는 방식입니다.
핵심 구성 요소
- 에이전트 (Agent) - 행동을 결정하는 주체
- 환경 (Environment) - 에이전트가 상호작용하는 세계
- 상태 (State) - 현재 상황의 표현
- 행동 (Action) - 에이전트가 취할 수 있는 선택
- 보상 (Reward) - 행동에 대한 피드백
- 정책 (Policy) - 상태에서 행동을 선택하는 전략
강화학습 유형
모델 기반 vs 모델 프리
- 모델 기반 (Model-based) - 환경의 모델을 학습하여 계획 수립
- 모델 프리 (Model-free) - 환경 모델 없이 직접 정책이나 가치 함수 학습
가치 기반 vs 정책 기반
- 가치 기반 (Value-based) - Q-Learning, DQN
- 정책 기반 (Policy-based) - REINFORCE, Policy Gradient
- Actor-Critic - 두 방법의 결합 (A3C, PPO)
온라인 vs 오프라인
- 온라인 학습 (Online) - 실시간으로 환경과 상호작용하며 학습
- 오프라인 학습 (Offline) - 기존 데이터셋으로 학습
- 배치 강화학습 (Batch RL) - 고정된 데이터셋 활용
싱글 에이전트 vs 멀티 에이전트
- 싱글 에이전트 - 하나의 에이전트만 존재
- 멀티 에이전트 - 여러 에이전트가 경쟁 또는 협력
- 자가 대결 (Self-play) - 자기 자신과 경쟁하며 학습
주요 알고리즘
전통적 방법
- Q-Learning - 테이블 기반 가치 함수 학습
- SARSA - On-policy TD 학습
- Monte Carlo Methods - 에피소드 완료 후 학습
- Temporal Difference (TD) - 부분적 경험으로 학습
딥러닝 기반
- DQN (Deep Q-Network) - 신경망으로 Q 함수 근사
- DDPG (Deep Deterministic Policy Gradient) - 연속 행동 공간
- A3C (Asynchronous Advantage Actor-Critic) - 병렬 학습
- PPO (Proximal Policy Optimization) - 안정적인 정책 학습
- SAC (Soft Actor-Critic) - 엔트로피 정규화
- TD3 (Twin Delayed DDPG) - DDPG 개선
실제 적용 사례
게임 플레이
- 체스, 바둑 (AlphaGo, AlphaZero)
- 아타리 게임 (DQN)
- StarCraft II (AlphaStar)
- Dota 2 (OpenAI Five)
- 포커 (Pluribus)
로봇 제어
- 로봇 팔 조작
- 보행 로봇 제어
- 드론 비행 제어
- 자율 주행 차량
- 산업용 로봇 최적화
최적화 문제
- 추천 시스템 최적화
- 포트폴리오 관리
- 자원 할당 최적화
- 에너지 관리 시스템
- 교통 신호 제어
기타 응용
- 대화형 AI 시스템
- 광고 입찰 전략
- 네트워크 라우팅
- 제조 공정 최적화
- 의료 치료 계획
도전 과제
주요 문제점
- 샘플 효율성 (Sample Efficiency) - 많은 데이터 필요
- 탐색-활용 균형 (Exploration-Exploitation)
- 보상 설계 (Reward Engineering)
- 안전성 보장 (Safety)
- 일반화 능력 (Generalization)
- 해석가능성 (Interpretability)