강화학습 (Reinforcement Learning)

에이전트가 환경과 상호작용하며 학습

← 메인으로 돌아가기

강화학습 개요

에이전트가 환경과 상호작용하며 보상을 최대화하는 방법을 학습하는 방식입니다.

핵심 구성 요소

에이전트 (Agent) - 행동을 결정하는 주체
환경 (Environment) - 에이전트가 상호작용하는 세계
상태 (State) - 현재 상황의 표현
행동 (Action) - 에이전트가 취할 수 있는 선택
보상 (Reward) - 행동에 대한 피드백
정책 (Policy) - 상태에서 행동을 선택하는 전략

강화학습 유형

모델 기반 vs 모델 프리

모델 기반 (Model-based) - 환경의 모델을 학습하여 계획 수립
모델 프리 (Model-free) - 환경 모델 없이 직접 정책이나 가치 함수 학습

가치 기반 vs 정책 기반

가치 기반 (Value-based) - Q-Learning, DQN
정책 기반 (Policy-based) - REINFORCE, Policy Gradient
Actor-Critic - 두 방법의 결합 (A3C, PPO)

온라인 vs 오프라인

온라인 학습 (Online) - 실시간으로 환경과 상호작용하며 학습
오프라인 학습 (Offline) - 기존 데이터셋으로 학습
배치 강화학습 (Batch RL) - 고정된 데이터셋 활용

싱글 에이전트 vs 멀티 에이전트

싱글 에이전트 - 하나의 에이전트만 존재
멀티 에이전트 - 여러 에이전트가 경쟁 또는 협력
자가 대결 (Self-play) - 자기 자신과 경쟁하며 학습

주요 알고리즘

전통적 방법

Q-Learning - 테이블 기반 가치 함수 학습
SARSA - On-policy TD 학습
Monte Carlo Methods - 에피소드 완료 후 학습
Temporal Difference (TD) - 부분적 경험으로 학습

딥러닝 기반

DQN (Deep Q-Network) - 신경망으로 Q 함수 근사
DDPG (Deep Deterministic Policy Gradient) - 연속 행동 공간
A3C (Asynchronous Advantage Actor-Critic) - 병렬 학습
PPO (Proximal Policy Optimization) - 안정적인 정책 학습
SAC (Soft Actor-Critic) - 엔트로피 정규화
TD3 (Twin Delayed DDPG) - DDPG 개선

실제 적용 사례

게임 플레이

체스, 바둑 (AlphaGo, AlphaZero)
아타리 게임 (DQN)
StarCraft II (AlphaStar)
Dota 2 (OpenAI Five)
포커 (Pluribus)

로봇 제어

로봇 팔 조작
보행 로봇 제어
드론 비행 제어
자율 주행 차량
산업용 로봇 최적화

최적화 문제

추천 시스템 최적화
포트폴리오 관리
자원 할당 최적화
에너지 관리 시스템
교통 신호 제어

기타 응용

대화형 AI 시스템
광고 입찰 전략
네트워크 라우팅
제조 공정 최적화
의료 치료 계획

도전 과제

주요 문제점

샘플 효율성 (Sample Efficiency) - 많은 데이터 필요
탐색-활용 균형 (Exploration-Exploitation)
보상 설계 (Reward Engineering)
안전성 보장 (Safety)
일반화 능력 (Generalization)
해석가능성 (Interpretability)