Reinforcement Learning   강화 학습

(2025-09-13)

1. 강화 학습 (Reinforcement Learning, 보상 학습)

  ㅇ 환경과 상호작용하면서, 보상을 최대화하는 방향으로, 행동을 학습하는 방법
     - 즉, 시행착오를 거치며, 스스로 최적의 행동 전략(정책)을 만들어냄


2. 강화 학습의 특징  :  상호작용 기반 학습

  ㅇ 보상에 의한 간접 (지연) 학습
     - 미리 정답이 주어지는 지도 학습과는 달리, 보상 만을 통해 간접적으로 학습

  ㅇ 환경과의 계속된 상호작용 (선택과 피드백의 반복)
     - "선택 → 피드백 → 개선"의 반복을 통해 학습 수행

  ㅇ 시행착오(trial and error)에 의함
     - 시행착오를 통해 어떤 행동이 장기적으로 유리한지 학습

  ㅇ 목표  :  보상의 총합(누적 보상)이 최대가 되도록 하는 의사결정 시스템을 구축
     - 결국, 알아서, 스스로의 행동 알고리즘을 만들어낼 수 있도록 함

  ㅇ 딥러닝과의 결합이 가능함
     - 보다 복잡한 문제에 대한 정교한 의사결정이 가능


3. 강화 학습 문제의 핵심학습 목적  :  장기 누적 보상을 최대화하는 정책(전략)을 찾는 것
     - 이전의 행동이 미래의 보상에 영향을 미치므로, 
        . 단기 보상이 아닌 장기적인 전략이 중요 
     - 수학적으로, 할인율(Discount Factor, γ)을 통해 반영됨

  ㅇ 순차적 의사결정 문제임  
     - 연이은 행동을 전략적으로 잘 선택해야 함
     - 이는 전통적인 통계학습(例: 지도학습)과의 큰 차이점임

  ㅇ 최적 행동 탐색  :  상태에 따른 최적 행동을 찾는 문제임
     - 행동 - 보상의 짝(1:1 매칭)이 아니라, 
        . 매번 주어지는 상태에 따라 최적 행동을 찾는 문제
     - 즉, "상태 → 행동"으로 매핑되는 정책(Policy)을 학습하는 것임


4. 강화 학습의 구성 요소

  ㅇ 환경 (Environment, E)  :  에이전트가 상호작용하는 대상 세계
  ㅇ 상태 (State, S)  :  현재 환경의 상황을 나타내는 정보
  ㅇ 행동 (Action, A)  :  에이전트가 선택할 수 있는 동작
  ㅇ 전이 (Transition, P)  :  상태와 행동에 따라 다음 상태확률적으로 전이
  ㅇ 보상 (Reward, R)  :  행동 결과로 환경이 주는 값 (정수 or 실수)
  ㅇ 정책 (Policy, π)  :  상태에 따라 어떤 행동을 선택할지 결정하는 전략
  ㅇ 가치함수 (Value Function)  :  특정 상태 또는 상태 - 행동 쌍의 장기적인 보상 기대값

  ※ 일반적으로, 환경은 다음과 같은 튜플로 표현됨  :  E = (S, A, P, R) 


5. 강화 학습의 과정  :  (반복 루프)

  ㅇ 현재 상태 S에서 행동 A를 선택 (Policy 기반)
  ㅇ 행동 A를 환경에 적용하여, 보상 R과 새로운 상태 S'를 받음
  ㅇ 이 경험을 기반으로 정책(π)을 개선
  ㅇ 위 과정을 반복하여 점점 더 나은 정책학습


6. 강화 학습 알고리즘

  ㅇ 가치 기반 (Value-based)
     - Q-learning 등

  ㅇ 정책 기반 (Policy-based)
     - 정책 경사(Policy Gradient) 등

  ㅇ 모델 기반 (Model-based)
     - 환경 모델추정하여 계획 수립 (Dyna-Q, World Models 등)

학습법
1. 학습법  
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]