1. 기계 학습에서, `학습법 (학습 시나리오)` : `어떻게 학습시킬 것인가`에 따른 구분
ㅇ 기계 학습의 학습 방법은, 크게 지도 학습과 비 지도 학습으로 구분됨
- 지도 학습 : 정답/라벨(label)이 있는 데이터로 학습
- 비 지도 학습 : 정답이 없는 데이터에서 숨은 구조 파악
- (기타)
. 준 지도 학습 : 일부만 정답이 있는 데이터로 학습
. 강화 학습 : 보상(reward)을 통해 행동 전략 학습
2. 지도 학습 (Supervised Learning) : 정답이 주어진 데이터를 통해, "미지의 출력값"을 예측
ㅇ 문제 - 정답의 쌍을 주고, 이를 통해 일반화 능력을 키움
- 모델은 손실함수(loss)를 최소화하도록 파라미터를 업데이트하며
- (예측값 ≈ 정답)에 가까워지도록 최적화됨
ㅇ 문제 유형
- 연속값 출력 : (회귀 문제, Regression)
. 例) 주택 가격 예측, 평점 예측, 랭킹/추천(실수 기반)
- 이산값 출력 : (분류 문제, Classification)
. 例) 스팸/정상 메일(이진 분류), 이미지 객체 분류(다중 분류)
ㅇ 학습 알고리즘 例
- 선형 모델 기반 : 선형 회귀, 로지스틱 회귀
- 비선형 모델 기반 : 결정트리 (Decision Tree), 랜덤 포레스트 (Random Forest),
그래디언트 부스팅(GBM, XGBoost 등)
- 최근접 기반 : KNN
- 최적화 기반 : SVM
- 딥러닝 기반 : MLP, CNN, RNN 등도 지도 학습으로 사용 가능
ㅇ 일반화와 과적합 방지
- 학습 데이터에만 과도하게 적합되는 과적합(Overfitting) 방지 필요
. 학습 데이터 / 검증 데이터 / 테스트 데이터 분리
. 교차 검증 (Cross-validation)
. 정규화 (L1/L2), 드롭아웃 (dropout), 조기 종료 (early stopping)
. 데이터 증강 (data augmentation)
3. 비 지도 학습/자율 학습 (Unsupervised Learning) : 정답이 없는 데이터에서 패턴,구조를 발견
ㅇ 출력(정답)이 제공되지 않는 상황에서 즉, 정답 없이 모델을 구축하는 것
- 입력 데이터 집합에 내재된 숨은 구조/성질을 찾는 과정 (패턴 추출)
ㅇ 문제 유형
- 군집화 (Clustering) : 유사한 데이터끼리 그룹핑
- 밀도 추정 (Density Estimation) : 데이터 분포 파악
- 이상 탐지 (Anomaly Detection) : 정상 분포에서 벗어난 데이터 탐색
- 차원 축소 (Dimensionality Reduction) : 데이터의 주요 요인 추출
. (시각화, 노이즈 감소 등 목적)
- 토픽 모델링 (Topic Modeling) : 문서 집합 내 잠재 주제를 추출
- 연관성 분석 (Association Rule Mining) : 항목 간 규칙 찾기
ㅇ 학습 알고리즘 例
- 군집화 : K-means, DBSCAN, 계층적 군집화, GMM(가우시안 혼합 모델)
- 차원 축소 : PCA(주성분 분석), t-SNE, UMAP
- 연관 규칙 분석 : Apriori, FP-Growth
- 이상 탐지 : Isolation Forest, One-Class SVM, Autoencoder 기반 탐지
- 주제 모델링 : LDA(Latent Dirichlet Allocation)