1. 기본 구조
ㅇ 입력층 (Input Layer)
- 입력 데이터를 받아들이는 층
. 각 노드는 입력 데이터의 특성을 나타냄
ㅇ 은닉층 (Hidden Layer)
- 입력층과 출력층 사이의 층
. 비선형 특성을 학습하며, 딥러닝의 주요 처리 과정이 이루어지는 부분
ㅇ 출력층 (Output Layer)
- 모델의 최종 결과를 출력하는 층
. 분류 문제 : 클래스 확률, 회귀 문제 : 연속값 등을 출력
ㅇ 인공 뉴런 (Neuron)
- 신경망의 기본 단위
. 입력 신호를 받아 가중치와 활성화 함수를 통해 출력값을 계산
ㅇ 가중치 (Weight)
- 각 입력 신호의 중요도를 나타내는 값
. 학습을 통해 최적의 값으로 조정됨
ㅇ 바이어스 (Bias)
- 활성화 함수의 출력값을 조정하는 상수
. 모델이 더 유연하게 학습할 수 있도록 도와줌
2. 수학적,연산적 요소
ㅇ 활성화 함수 (Activation Function)
- 뉴런의 출력값을 비선형 변환하는 함수
. ReLU, Sigmoid, Tanh, Softmax 등
ㅇ 손실 함수 (Loss Function)
- 모델의 예측값과 실제값 간의 차이를 나타내는 함수.
. 회귀 문제 : 평균 제곱 오차 (MSE)
. 분류 문제 : 교차 엔트로피 (Cross-Entropy)
ㅇ 경사하강법 (Gradient Descent)
- 손실 함수를 최소화하기 위해 가중치를 조정하는 알고리즘.
. 변형된 방법으로는 Stochastic Gradient Descent (SGD), Adam 등이 있음
ㅇ 옵티마이저 (Optimizer)
- 손실을 줄이도록 가중치를 업데이트하는 알고리즘
2. 학습 과정 (Training Mechanics)
ㅇ 에폭 (Epoch)
- 전체 데이터셋이 신경망을 1번 통과한(학습한) 단위
ㅇ 배치 (Batch)
- 학습 과정에서 한 번의 가중치 업데이트에 사용되는 데이터 묶음
. 미니 배치 (Mini-batch) : 데이터셋을 소규모로 나눠 학습하는, 일반적 학습 방식
ㅇ 학습률 (Learning Rate)
- 가중치 업데이트 시 이동 크기
. 너무 크면 발산, 너무 작으면 학습 지연
ㅇ 역전파 (Backpropagation)
- 오차를 뒤로 전파하며 (출력층 → 입력층), 가중치를 업데이트하는 핵심 알고리즘 (학습 방법)
. 계산 그래프 기반으로 미분 수행
ㅇ 정규화 (Normalization)
- 데이터나 레이어 출력을 정규화하여 학습 안정화
. Batch Normalization, Layer Normalization 등
ㅇ 하이퍼 파라미터, 초 모수 (Hyperparameter)
- 학습 전에 사람이 설정하는 값 : 학습률, 배치 크기, 은닉층 수, 드롭아웃 비율, 활성화 함수 등
ㅇ 모델 파라미터 (Model Parameter)
- 학습 중에 자동으로 조정(최적화)되는 값 : 가중치, 편향 등
3. 모델 성능 관련
ㅇ 과적합 (Overfitting)
- 모델이 훈련 데이터에 만 과도하게 최적화되어, 일반화 성능이 떨어짐 (실제 데이터에 약함)
ㅇ 드롭아웃 (Dropout)
- 과적합을 방지하기 위해 학습 중 일부 뉴런을 랜덤하게 제외하는 기법
ㅇ 과소적합 (Underfitting)
- 모델이 충분한 데이터로 학습하지 못해 성능이 낮은 상태 (데이터 패턴을 충분히 학습 못함)
ㅇ 정규화 (Regularization)
- 과적합 방지 위한 규제 기법
. L1 (Lasso) : 가중치 절댓값 제어
. L2 (Ridge) : 가중치 제곱 제어
. Dropout
. Early Stopping
4. 신경망 아키텍처 유형
ㅇ MLP (Multi-Layer Perceptron)
- 가장 기본적인 다층 신경망 구조
ㅇ CNN (Convolutional Neural Network)
- 합성곱 연산 기반, 이미지,영상 처리에 강함
ㅇ RNN (Recurrent Neural Network)
- 시퀀스 데이터용 구조, LSTM,GRU 등 개선형 포함
ㅇ Transformer
- Attention 기반 구조, NLP,비전,멀티모달 등에서 표준 모델
ㅇ Autoencoder
- 입력 → 압축(잠재공간) → 복원
. 차원 축소, 노이즈 제거 등에 활용
ㅇ GAN (Generative Adversarial Network)
- Generator vs Discriminator 경쟁 구조
. 이미지 생성 분야에서 혁신