1. 과적합 (Overfitting, 오버피팅) ↔ 과소적합 (Underfitting)
ㅇ 학습 데이터에만 지나치게 최적화되어, 새로운 데이터에 대한 일반화 성능이 저하되는 현상
ㅇ (머신러닝의 가장 큰 난관 : 과적합)
- 과소적합은, 다루기 쉬우나,
- 과적합은, 다루기 매우 까다로워, 머신러닝이 넘어야 할 핵심 장애물 임
. 이를 피할 수 없으며, 완화하고, 최소화하는데 만족해야 함
ㅇ (주요 원인)
- 과도한 학습 능력 : 일반적이지 않은 특성까지도 학습하는 등
- 모델 복잡성 : 지나치게 깊은 신경망, 너무 많은 파라미터 등
- 불충분한 데이터 : 학습 데이터가 적거나, 데이터가 충분히 다양하지 않은 경우
- 노이즈 학습 : 학습 데이터에 포함된 오류나 노이즈 마저도 모델이 과도하게 학습
- 지난친 학습 횟수 : 학습을 너무 오래 진행하여 모델이 데이터에 과적합하는 등
ㅇ (해결 방법)
- 정규화 (Regularization) : 모델 복잡성 억제를 위한 L1, L2 정규화 또는 드롭아웃 (Dropout)
- 교차 검증 (Cross-validation) : 데이터를 여러 부분으로 나누어 검증
- 조기 종료 (Early Stopping) : 검증 데이터의 성능이 나빠지기 시작하면 학습 중단
- 충분한 데이터 확보, 단순한 모델 사용 등