강화학습 (Reinforcement Learning)

에이전트가 환경과 상호작용하며 학습

← 메인으로 돌아가기

강화학습 개요

에이전트가 환경과 상호작용하며 보상을 최대화하는 방법을 학습하는 방식입니다.

핵심 구성 요소

  • 에이전트 (Agent) - 행동을 결정하는 주체
  • 환경 (Environment) - 에이전트가 상호작용하는 세계
  • 상태 (State) - 현재 상황의 표현
  • 행동 (Action) - 에이전트가 취할 수 있는 선택
  • 보상 (Reward) - 행동에 대한 피드백
  • 정책 (Policy) - 상태에서 행동을 선택하는 전략

강화학습 유형

모델 기반 vs 모델 프리

  • 모델 기반 (Model-based) - 환경의 모델을 학습하여 계획 수립
  • 모델 프리 (Model-free) - 환경 모델 없이 직접 정책이나 가치 함수 학습

가치 기반 vs 정책 기반

  • 가치 기반 (Value-based) - Q-Learning, DQN
  • 정책 기반 (Policy-based) - REINFORCE, Policy Gradient
  • Actor-Critic - 두 방법의 결합 (A3C, PPO)

온라인 vs 오프라인

  • 온라인 학습 (Online) - 실시간으로 환경과 상호작용하며 학습
  • 오프라인 학습 (Offline) - 기존 데이터셋으로 학습
  • 배치 강화학습 (Batch RL) - 고정된 데이터셋 활용

싱글 에이전트 vs 멀티 에이전트

  • 싱글 에이전트 - 하나의 에이전트만 존재
  • 멀티 에이전트 - 여러 에이전트가 경쟁 또는 협력
  • 자가 대결 (Self-play) - 자기 자신과 경쟁하며 학습

주요 알고리즘

전통적 방법

  • Q-Learning - 테이블 기반 가치 함수 학습
  • SARSA - On-policy TD 학습
  • Monte Carlo Methods - 에피소드 완료 후 학습
  • Temporal Difference (TD) - 부분적 경험으로 학습

딥러닝 기반

  • DQN (Deep Q-Network) - 신경망으로 Q 함수 근사
  • DDPG (Deep Deterministic Policy Gradient) - 연속 행동 공간
  • A3C (Asynchronous Advantage Actor-Critic) - 병렬 학습
  • PPO (Proximal Policy Optimization) - 안정적인 정책 학습
  • SAC (Soft Actor-Critic) - 엔트로피 정규화
  • TD3 (Twin Delayed DDPG) - DDPG 개선

실제 적용 사례

게임 플레이

  • 체스, 바둑 (AlphaGo, AlphaZero)
  • 아타리 게임 (DQN)
  • StarCraft II (AlphaStar)
  • Dota 2 (OpenAI Five)
  • 포커 (Pluribus)

로봇 제어

  • 로봇 팔 조작
  • 보행 로봇 제어
  • 드론 비행 제어
  • 자율 주행 차량
  • 산업용 로봇 최적화

최적화 문제

  • 추천 시스템 최적화
  • 포트폴리오 관리
  • 자원 할당 최적화
  • 에너지 관리 시스템
  • 교통 신호 제어

기타 응용

  • 대화형 AI 시스템
  • 광고 입찰 전략
  • 네트워크 라우팅
  • 제조 공정 최적화
  • 의료 치료 계획

도전 과제

주요 문제점

  • 샘플 효율성 (Sample Efficiency) - 많은 데이터 필요
  • 탐색-활용 균형 (Exploration-Exploitation)
  • 보상 설계 (Reward Engineering)
  • 안전성 보장 (Safety)
  • 일반화 능력 (Generalization)
  • 해석가능성 (Interpretability)