1. 기계학습에서, 파라미터 이란?
ㅇ 파라미터 (Parameter, 매개변수)
- 모델을 수학적으로 규정하는 값
. 데이터로부터 학습되거나, 외부에서 설정되어 모델의 동작을 결정함
ㅇ 파라미터의 구분
- 하이퍼 파라미터 : 학습 전 또는 중간에 외부(사용자)로부터 주어지는 것
. 모델 구조 및 학습 과정을 제어
- 모델 파라미터 : 학습을 통해 내부에서 자동으로 업데이트 되는 것
. 모델이, 데이터의 패턴을 표현하는, 핵심 요소
ㅇ 파라미터의 수 : 모델 복잡도에 따라 다양
- 단순 모델 : 수 개 ~ 수십 개
- 신경망/딥러닝 경우 : 수천 ~ 수만 ~ 수억 개 이상
※ [참고] (요약)
- 파라미터 : "모델을 규정하는 값"
- 하이퍼 파라미터 : "학습 과정을 제어하는 외부 설정값"
- 모델 파라미터 : "데이터로부터 학습되는 내부 값"
- 파라미터 수 : "모델 복잡도에 따라 다양"
※ [참고] (파라미터, 변수 간의 비교)
- 例) 회귀분석 회귀식 y = px + q
. x, y : 독립 변수, 종속 변수 (데이터를 넣게되는, 변수)
. p, q : 가중치, 편향 (학습하게 되는, 파라미터)
2. 하이퍼 파라미터 (Hyperparameter)
ㅇ 학습 전 또는 중간에, 사람(사용자)이 설정하는 값
ㅇ 하이퍼 파라미터 例) : (기계학습 전반)
- 정규화 계수 (λ), k-NN의 k 값, 트리의 깊이(max depth) 등
ㅇ 하이퍼 파라미터 例) : (신경망/딥러닝 분야)
- 학습률 (Learning Rate) : (즉, 학습 속도의 조절 인자)
. 기울기 기반 최적화에서, 가중치와 편향의 업데이트 크기(스텝 크기)를 조절
.. 학습률 값이 너무 높으면, 불안정,발산하고,
.. 학습률 값이 너무 낮으면, 학습이 느려져, 수렴 못할 수 있음
. 최적화 알고리즘에서 학습률은,
.. 손실 함수의 최소값 방향으로 파라미터를 이동하는,
.. 각 반복의 단계 크기(step size)를 의미
. {#\theta_{t+1} = \theta_t - \eta \nabla_{\theta} L(\theta_t)#}
.. {#η#} : 학습률 (learning rate)
.. {#\nabla_{\theta} L(\theta_t)#} : 현재 파라미터에서의 손실 함수의 기울기
.. {#\theta#} : 가중치와 편향을 포함하는 파라미터
.. {#L(\theta)#} : 손실 함수
- 배치 크기 (Batch Size)
. 한 번의 학습에 사용하는 데이터 샘플의 개수
. 모델의 업데이트 빈도에 영향을 미침
.. 작음 : 더 빠른 업데이트, 높은 노이즈
.. 큼 : 안정적인 학습, 높은 계산 비용
- 에포크 (Epoch)
. 전체 데이터셋을 한 번 완전히 학습하는 과정의 횟수
. 적정 값을 설정하지 않으면 과적합(overfitting) 또는 과소적합(underfitting) 발생
.. 과다 : 과적합
.. 부족 : 과소적합
- 정규화 강도 (Regularization Strength)
. 과적합 방지를 위해 가중치 값에 규제를 가하는 정도
.. L1 정규화 : 가중치의 절대값 합을 최소화
.. L2 정규화 : 가중치의 제곱합을 최소화
- 드롭아웃 비율 (Dropout Rate)
. 학습 중 일부 뉴런의 출력을 랜덤하게 0으로 설정하는 비율
. 과적합을 방지하고 일반화 성능을 향상
- 네트워크 구조 (Network Architecture) 관련
. 신경망의 층 수, 각 층의 뉴런 개수, 활성화 함수 종류 등
.. 레이어 수 (은닉층 수), 입력/출력 차원, CNN의 커널 크기, RNN의 시퀀스 길이 등
ㅇ 하이퍼 파라미터 튜닝
- 모델 성능을 최적화하기 위해, 하이퍼 파라미터 값을 조정하는 과정을 말함
3. 모델 파라미터 (Model Parameter)
ㅇ 모델의 학습을 통해 결정되며, 최적화 과정에서 업데이트되는 값들
- 최적화 알고리즘(경사하강법 등)에 의해 자동 조정됨
. 학습을 통해, 비용함수(손실함수) 값을 최소로 하는, 모델 파라미터 값을 결정하게 됨
ㅇ 모델 파라미터 例) : (기계학습 전반)
- 선형 회귀 : 회귀 계수 β
- SVM : 초평면(결정경계)을 정의하는 가중치 벡터와 편향
- 확률모델 : 분포의 평균, 분산 등
ㅇ 모델 파라미터 例) : (신경망/딥러닝 분야)
- 가중치 (weight)
. 각 뉴런 간 연결의 강도를 나타내는 값
. 입력 데이터를 뉴런에 전달하며 곱해져 뉴런의 출력에 영향을 미침
. 학습 데이터로부터 패턴을 모델링하는 핵심 요소
- 편향 (Bias)
. 뉴런에 더해지는 추가적인 상수 항
. 출력값을 특정 방향으로 이동시키는 역할
. 모델이 더 복잡한 패턴을 학습할 수 있도록 도와줌