1. 내리막 경사법, 경사 하강법 (Gradient Descent Method), 최급강하법 (Steepest Descent Method)
ㅇ 비용함수를 최소화하기 위해, 반복해서 파라미터를 조정해 나가는 것
2. 핵심 아이디어
ㅇ 경사 하강에 대해, 가장 직관적인 선택은, 경사가 가장 가파른 하강 방향 임
- 경사가 가장 가파른 방향은 그래디언트 Δf와 반대방향 임
ㅇ 핵심 아이디어 셋(3)
- 기울기 : 함수 내 특정 지점의 기울기는, 그 지점에서 함수 값이 가장 빠르게 감소하는 방향
- 반복 이동 : 현 위치에서 기울기의 반대 방향으로 균일 이동하면 함수 값 감소
. 적절히 정한 초기값부터, 함수 f()의 1차 미분 정보 만 이용하여, 조금씩 최적해에 접근함
- 학습률 : 이동 크기를 조절하는 매개변수
. 학습률이 너무 크면, 최소값을 넘어가고, (최적해 부근에서 왔다갔다 반복 가능성)
. 학습률이 너무 작으면, 학습 속도 느려질 가능성
ㅇ 표현식
- θ := θ - α * ∇f(θ)
. θ : 모델의 파라미터 (가중치)
. α : 학습률 (learning rate)
.. 해의 수정 폭을 제어하는 파라미터
. ∇f(θ) : 비용 함수 f()에 대한 θ의 기울기 벡터 (gradient)
.. 현 위치에서, 조금 움직였을 때, 함수값이 가장 커지는 방향
3. 특징
ㅇ 기계 학습에서 가장 널리 사용되는 최적화 알고리즘 중 하나
- 마치 산을 내려가는 것처럼, 함수의 값이 가장 낮아지는 방향으로, 조금씩 이동하며,
최소값을 찾아가는 방법
ㅇ 구현이 간단하고 직관적
ㅇ 다양한 문제에 적용 가능
ㅇ (학습률,지역 최소값 문제) 학습률을 적절히 설정해야 하며, 지역 최소값에 빠질 수 있음
ㅇ (계산 비용) 특성이 많은 데이터셋에서는 계산 비용이 많이 들 수 있음