문제 유형 선택 가이드
최적의 ML/AI 접근법 선택하기
← 메인으로 돌아가기
문제 유형 선택 프로세스
1단계: 문제 정의
- 비즈니스 목표 명확화
- 성공 기준 정의
- 제약 조건 파악
- 이해관계자 요구사항
- 기대 결과물 정의
2단계: 데이터 특성 파악
- 데이터 유형 (정형/비정형)
- 데이터 크기와 차원
- 레이블 유무
- 시간 의존성
- 데이터 품질
3단계: 문제 유형 매칭
- 지도/비지도/강화 학습 선택
- 회귀/분류/군집화 결정
- 특수 도메인 고려
- 생성 모델 필요성 검토
의사결정 트리
첫 번째 분기: 타겟 변수 유무
타겟 변수가 있는 경우
- 연속형 → 회귀 문제
- 범주형 → 분류 문제
- 순서형 → 서열 예측
타겟 변수가 없는 경우
- 그룹화 → 군집화
- 패턴 발견 → 연관 규칙
- 이상치 찾기 → 이상치 탐지
- 차원 축소 → PCA, t-SNE
두 번째 분기: 데이터 유형
정형 데이터
- 선형 관계 → 선형 모델
- 비선형 관계 → 트리 기반, SVM
- 복잡한 관계 → 앙상블, 신경망
비정형 데이터
- 이미지 → CNN, Vision Transformer
- 텍스트 → RNN, Transformer
- 음성 → CNN, RNN
- 그래프 → GNN
문제별 추천 접근법
소규모 정형 데이터
- 선형 회귀/로지스틱 회귀
- Decision Tree
- K-Nearest Neighbors
- SVM
- Random Forest
대규모 정형 데이터
- XGBoost/LightGBM
- 딥러닝 (TabNet)
- 앙상블 방법
- Neural Networks
시계열 데이터
- ARIMA (단순 패턴)
- Prophet (계절성)
- LSTM/GRU (복잡한 패턴)
- Transformer (장기 의존성)
이미지 데이터
- 분류: ResNet, EfficientNet
- 탐지: YOLO, R-CNN
- 분할: U-Net, Mask R-CNN
- 생성: GAN, Diffusion
텍스트 데이터
- 분류: BERT, RoBERTa
- 생성: GPT, T5
- 번역: Transformer
- 요약: BART, Pegasus
체크리스트
데이터 관련
- ☐ 데이터 크기와 품질 확인
- ☐ 타겟 변수 유무 확인
- ☐ 데이터 타입 파악 (정형/비정형)
- ☐ 시간 의존성 확인
- ☐ 클래스 불균형 확인
- ☐ 결측치 비율 파악
문제 정의
- ☐ 비즈니스 목표 명확화
- ☐ 평가 지표 선정
- ☐ 실시간 예측 필요성
- ☐ 해석가능성 요구사항
- ☐ 정확도 vs 속도 trade-off
모델 선택
- ☐ 베이스라인 모델 설정
- ☐ 모델 복잡도 고려
- ☐ 학습 시간 제약
- ☐ 배포 환경 고려
- ☐ 유지보수 용이성
실무 가이드라인
프로젝트 초기
- 간단한 모델부터 시작
- 빠른 프로토타이핑
- 데이터 품질 우선 개선
- 비즈니스 가치 검증
모델 개발
- 교차 검증 활용
- 하이퍼파라미터 튜닝
- 앙상블 고려
- 과적합 방지
배포 고려사항
- 모델 크기와 속도
- 실시간 vs 배치 처리
- 모니터링 계획
- 재학습 전략
자주 하는 실수
데이터 관련
- 데이터 누수 (Data Leakage)
- 불균형 데이터 무시
- 전처리 부족
- 검증 세트 오염
모델 관련
- 과도한 복잡성
- 베이스라인 무시
- 평가 지표 오선택
- 일반화 능력 간과
도구 및 프레임워크
전통적 ML
- Scikit-learn
- XGBoost
- LightGBM
- CatBoost
딥러닝
- TensorFlow
- PyTorch
- JAX
- Keras
특수 도메인
- Hugging Face (NLP)
- OpenCV (Computer Vision)
- Librosa (Audio)
- NetworkX (Graph)