1. 최적화 알고리즘 : (최적화 문제 풀이 방법)
ㅇ 라그랑제 승수법 (Lagrange Multiplier Method)
- 제약조건이 있는 최적화 문제를, 제약식을 목적함수에 포함시켜,
. 제약 없는 최적화 문제로 변환
- 라그랑지안 함수 L(x, λ) = f(x) + λg(x) 형태로 구성
ㅇ 내리막 경사법, 경사 하강법 (Gradient Descent Method)
- 비용함수를 최소화하기 위해, 목적함수의 기울기 방향(가장 가파른 하강 방향)을 따라,
. 반복적으로 변수(파라미터)를 갱신하며 최소값을 탐색
- x_(k+1) = x_k - α∇f(x_k)
ㅇ 일계법, 이계법
- 일계법 (first order method) : 1차 미분(그레디언트)만 사용
. 목적 함수의 1차 미분(그레디언트) 정보만을 이용하여 최적화 문제를 해결하는 방법
. 例) 테일러급수, 경사하강법 등
- 이계법 (second order method) : 2차 미분(헤시안 행렬)까지 사용
. 목적 함수의 2차 미분 정보를 활용하여 최적화 문제를 해결하는 방법
. 例) 뉴턴법, 유사 뉴턴법 (Quasi-Newton Method, BFGS 등) 등
ㅇ 뉴턴법 (Newton's Method)
- 2차 미분(헤시안 행렬)을 활용해, 목적함수를 근사하고, 빠르게 최소값을 찾는 알고리즘
. 수렴 속도가 빠르지만, 계산량이 많음
- x_(k+1) = x_k - H⁻¹∇f(x_k)
ㅇ 유사 뉴턴법 (Quasi-Newton Method)
- 헤시안 행렬을 직접 계산하지 않고 근사하여 계산량을 줄임
- 대표적 예 : BFGS, L-BFGS
ㅇ 확률적 경사하강법 (Stochastic Gradient Descent, SGD)
- 전체 데이터 대신 일부 표본(mini-batch)을 이용해 파라미터 갱신
. 대규모 데이터 최적화에 효율적
ㅇ 모멘텀 기법 (Momentum Method)
- 이전 업데이트 방향을 일정 부분 유지시켜, 진동을 줄이고 빠른 수렴 유도
ㅇ 아담 (Adam, Adaptive Moment Estimation)
- 모멘텀 + 적응적 학습률(Adaptive Learning Rate)을 결합한 방법
- 딥러닝 최적화에 널리 사용