문제 유형 선택 가이드

최적의 ML/AI 접근법 선택하기

← 메인으로 돌아가기

문제 유형 선택 프로세스

1단계: 문제 정의

  • 비즈니스 목표 명확화
  • 성공 기준 정의
  • 제약 조건 파악
  • 이해관계자 요구사항
  • 기대 결과물 정의

2단계: 데이터 특성 파악

  • 데이터 유형 (정형/비정형)
  • 데이터 크기와 차원
  • 레이블 유무
  • 시간 의존성
  • 데이터 품질

3단계: 문제 유형 매칭

  • 지도/비지도/강화 학습 선택
  • 회귀/분류/군집화 결정
  • 특수 도메인 고려
  • 생성 모델 필요성 검토

의사결정 트리

첫 번째 분기: 타겟 변수 유무

타겟 변수가 있는 경우

  • 연속형 → 회귀 문제
  • 범주형 → 분류 문제
  • 순서형 → 서열 예측

타겟 변수가 없는 경우

  • 그룹화 → 군집화
  • 패턴 발견 → 연관 규칙
  • 이상치 찾기 → 이상치 탐지
  • 차원 축소 → PCA, t-SNE

두 번째 분기: 데이터 유형

정형 데이터

  • 선형 관계 → 선형 모델
  • 비선형 관계 → 트리 기반, SVM
  • 복잡한 관계 → 앙상블, 신경망

비정형 데이터

  • 이미지 → CNN, Vision Transformer
  • 텍스트 → RNN, Transformer
  • 음성 → CNN, RNN
  • 그래프 → GNN

문제별 추천 접근법

소규모 정형 데이터

  • 선형 회귀/로지스틱 회귀
  • Decision Tree
  • K-Nearest Neighbors
  • SVM
  • Random Forest

대규모 정형 데이터

  • XGBoost/LightGBM
  • 딥러닝 (TabNet)
  • 앙상블 방법
  • Neural Networks

시계열 데이터

  • ARIMA (단순 패턴)
  • Prophet (계절성)
  • LSTM/GRU (복잡한 패턴)
  • Transformer (장기 의존성)

이미지 데이터

  • 분류: ResNet, EfficientNet
  • 탐지: YOLO, R-CNN
  • 분할: U-Net, Mask R-CNN
  • 생성: GAN, Diffusion

텍스트 데이터

  • 분류: BERT, RoBERTa
  • 생성: GPT, T5
  • 번역: Transformer
  • 요약: BART, Pegasus

체크리스트

데이터 관련

  • ☐ 데이터 크기와 품질 확인
  • ☐ 타겟 변수 유무 확인
  • ☐ 데이터 타입 파악 (정형/비정형)
  • ☐ 시간 의존성 확인
  • ☐ 클래스 불균형 확인
  • ☐ 결측치 비율 파악

문제 정의

  • ☐ 비즈니스 목표 명확화
  • ☐ 평가 지표 선정
  • ☐ 실시간 예측 필요성
  • ☐ 해석가능성 요구사항
  • ☐ 정확도 vs 속도 trade-off

모델 선택

  • ☐ 베이스라인 모델 설정
  • ☐ 모델 복잡도 고려
  • ☐ 학습 시간 제약
  • ☐ 배포 환경 고려
  • ☐ 유지보수 용이성

실무 가이드라인

프로젝트 초기

  • 간단한 모델부터 시작
  • 빠른 프로토타이핑
  • 데이터 품질 우선 개선
  • 비즈니스 가치 검증

모델 개발

  • 교차 검증 활용
  • 하이퍼파라미터 튜닝
  • 앙상블 고려
  • 과적합 방지

배포 고려사항

  • 모델 크기와 속도
  • 실시간 vs 배치 처리
  • 모니터링 계획
  • 재학습 전략

자주 하는 실수

데이터 관련

  • 데이터 누수 (Data Leakage)
  • 불균형 데이터 무시
  • 전처리 부족
  • 검증 세트 오염

모델 관련

  • 과도한 복잡성
  • 베이스라인 무시
  • 평가 지표 오선택
  • 일반화 능력 간과

도구 및 프레임워크

전통적 ML

  • Scikit-learn
  • XGBoost
  • LightGBM
  • CatBoost

딥러닝

  • TensorFlow
  • PyTorch
  • JAX
  • Keras

특수 도메인

  • Hugging Face (NLP)
  • OpenCV (Computer Vision)
  • Librosa (Audio)
  • NetworkX (Graph)