1. 강화 학습 (RL, Reinforcement Learning, 보상 학습)
ㅇ 환경과 상호작용하면서, 보상을 최대화하는 방향으로, 행동을 학습하는 방법
- 즉, 시행착오를 거치며, 스스로 최적의 행동 전략(정책)을 만들어냄
2. 강화 학습의 특징 : 상호작용 기반 학습
ㅇ 보상에 의한 간접 (지연) 학습법임
- 미리 정답이 주어지는 지도 학습과는 달리, 보상 만을 통해 간접적으로 학습
ㅇ 환경과의 계속된 상호작용이 있게됨 (선택과 피드백의 반복)
- "선택 → 피드백 → 개선"의 반복을 통해 학습 수행
ㅇ 시행착오 (trial and error) 학습법에 의함
- 시행착오를 통해 어떤 행동이 장기적으로 유리한지 학습
. 가능한 여러 해(解)를 시도해 보고,
.. 그 결과(성공/실패)에 따라, 다음 시도를 조정해 나가는 탐색적 방법
. 즉, "직접 해보며 배우는", 경험 기반의 학습 과정
ㅇ 보상의 총합(누적 보상)이 최대가 되도록 함
- 사후적으로, 보상이 낮았던 행동들은 덜하고, 높았던 것들은 더하면서,
. 보상의 총합을 최대화 하도록, 조금씩 행동을 수정해나감
- 결국, 알아서, 스스로의 행동 알고리즘(의사결정 시스템)을 만들어 내도록 함
ㅇ 딥러닝과 결합되면, 성능 향상됨
- 보다 복잡한 문제에 대한 정교한 의사결정이 가능
3. 강화 학습 문제의 핵심
ㅇ 순차적임 : 순차적 의사결정 문제임
- 연이은 행동 마다 전략적으로 잘 선택해야 함
. 각 상황에 따라 취한 행동이, 다음 상황에 영향을 줌
.. 例) 운전,게임,주식투자 등
- 이는 전통적인 통계적 학습(例: 지도학습)과의 큰 차이점임
ㅇ 최적 행동 탐색 : 상태에 따른 최적 행동을 찾는 문제임
- 미리 정해진 행동 - 보상의 짝(1:1 매칭)이 아니라,
. 매번 주어지는 상태에 따라 최적 행동을 찾는 문제
- 즉, "상태 → 행동"으로 매핑되는 정책(Policy)을 학습하는 것임
ㅇ 단일값 보상 구조 : 단일 스칼라 형태의 보상 값을 기반으로 학습함
- 각 행동의 결과로 주어지는 보상 값은 하나의 스칼라 값(수치)로 표현됨
- 다만, 동일 문제에서도, 다양한 방법으로 보상 설정이 가능하므로,
. 학습 목적(장기 누적 보상 극대화)을 잘 반영하도록, 보상 점수를 신중히 설계해야 함
ㅇ 학습 목적 : 장기 누적 보상을 최대화하는 정책(전략)을 찾는 것
- 이전의 행동이 미래의 보상에 영향을 미치므로,
. 단기 보상이 아닌 장기적인 전략이 중요
- 수학적으로, 할인율(Discount Factor, γ)을 통해 반영됨
4. 강화 학습의 요소
ㅇ 에이전트 (Agent) : 주어진 환경에서 보상을 최대화하도록 행동을 선택하는, 강화학습 에이전트
ㅇ 환경 (Environment, E) : 에이전트와 상호작용하는 대상 세계
- 통상, 환경은 다음과 같은 튜플로 표현됨 : E = (S, A, P, R)
ㅇ 상태 (State, S) : 현재 환경의 상황을 나타내는 정보
ㅇ 행동 (Action, A) : 에이전트가 선택할 수 있는 동작
ㅇ 전이 (Transition, P) : 상태와 행동에 따라 다음 상태로 확률적으로 전이
ㅇ 보상 (Reward, R) : 행동 결과로 환경이 주는 값 (정수 or 실수)
- 보상 함수 (Reward Function)
. 에이전트가 어떤 상태에서 특정 행동을 할 때, (상태 전이시)
. 환경은, 환경 내 잠재된 보상 함수에 기반하여, 그 행동이 얼마나 `좋은지`/ `나쁜지`를,
. 에이전트에게 상벌에 대한 수치로써 알려줌
ㅇ 정책 (Policy, π) : 상태에 따라 어떤 행동을 선택할지 결정하는 전략
ㅇ 가치함수 (Value Function) : 특정 상태 또는 상태 - 행동 쌍의 장기적인 보상 기대값
5. 강화 학습의 과정 : (반복 루프)
ㅇ 현재 상태 S에서 행동 A를 선택 (Policy 기반)
ㅇ 행동 A를 환경에 적용하여, 보상 R과 새로운 상태 S'를 받음
ㅇ 이 경험을 기반으로 정책(π)을 개선
ㅇ 위 과정을 반복하여 점점 더 나은 정책을 학습
6. 강화 학습의 문제 유형/분류/예시
ㅇ 밴디트 문제 (Multi-Armed Bandit, MAB) : (가장 간단한 문제)
- 환경 : 슬롯머신, 에이전트 : 플레이어, 상태(state) 개념 거의 없음
- 구조 : 행동(action) 선택 → 즉시 보상(reward)
- 미래 영향(장기적 결과) 고려 안함 → 즉, 순수 탐험(exploration) vs 활용(exploitation) 문제
ㅇ 마르코프 결정 과정 (MDP, Markov Decision Process)
- 에이전트의 행동에 따라, 상황이 시시각각 변함
- 다만, 최적 행동 결정에 필요한 정보가 모두 '현재 상태'에 담겨져 있음
ㅇ 부분 관찰 MDP (POMDP, Partially Observable MDP)
- 현재 관찰 만으로 불충분, 과거 관찰도 고려 필요함
ㅇ 학습 구조 기반 분류
- 단일 에이전트 강화학습 (SARL)
- 다중 에이전트 강화학습 (MARL)
ㅇ 모델 기반 분류
- Model-free
- Model-based
ㅇ 정책 구조 기반 분류
- 가치 기반 (Value-based)
. Q-learning 등
- 정책 기반 (Policy-based)
. 정책 경사(Policy Gradient) 등
- 모델 기반 (Model-based)
. 환경 모델을 추정하여 계획 수립 (Dyna-Q, World Models 등)